【一言で言うと】
大規模言語モデルを用いて、質的データ分析(QDA)の代表的な手法であるグラウンデッド・セオリー・アプローチ(GTA)における「切片化」と「カテゴリ分類」の自動化手法を提案した
【タイトル/URL】
大規模言語モデルにより生成した疑似データを用いた自由記述アンケートの自動集約
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D9-5.pdf
【まとめ】
・ローカル環境(gpt-3.5-turbo-0613)で新型コロナアンケートの擬似回答を3,002件作成
・擬似回答をもとに「擬似回答自動切片化データ」と「実回答人手切片化データ」を作成し、東北大版BERTで学習
・擬似回答自動切片化データに対して、カテゴリ生成モデル(bilingual-gpt-neox-4b-instruction-sft+LoRA)を適用し、623種のカテゴリを生成→最終的に10種類のカテゴリに統一
・擬似回答自動切片化データと実回答人手切片化データを10種類のカテゴリに分類し、分類モデルの性能比較
・自動化手法は時間/費用面で優れているが、「切片化」と「カテゴリ分類」の性能は人手作成データよりも性能で劣る
【感想】
・医療カウンセリングデータも直接chatGPTに読み込ませる事ができないので、本手法は参考になった
・提案手法は政府カテゴリを誤って多く分類する傾向があったので、医療データでの傾向を検討したい