More than 1 year has passed since last update.

言語処理学会2024論文紹介/大規模言語モデルにより生成した疑似データを用いた自由記述アンケートの自動集約

Last updated at 2024-04-26Posted at 2024-04-11

【一言で言うと】
大規模言語モデルを用いて、質的データ分析（QDA）の代表的な手法であるグラウンデッド・セオリー・アプローチ(GTA)における「切片化」と「カテゴリ分類」の自動化手法を提案した

【タイトル/URL】
大規模言語モデルにより生成した疑似データを用いた自由記述アンケートの自動集約
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D9-5.pdf

【まとめ】
・ローカル環境（gpt-3.5-turbo-0613）で新型コロナアンケートの擬似回答を3,002件作成
・擬似回答をもとに「擬似回答自動切片化データ」と「実回答人手切片化データ」を作成し、東北大版BERTで学習
・擬似回答自動切片化データに対して、カテゴリ生成モデル（bilingual-gpt-neox-4b-instruction-sft＋LoRA）を適用し、６２３種のカテゴリを生成→最終的に10種類のカテゴリに統一
・擬似回答自動切片化データと実回答人手切片化データを10種類のカテゴリに分類し、分類モデルの性能比較
・自動化手法は時間/費用面で優れているが、「切片化」と「カテゴリ分類」の性能は人手作成データよりも性能で劣る

【感想】
・医療カウンセリングデータも直接chatGPTに読み込ませる事ができないので、本手法は参考になった
・提案手法は政府カテゴリを誤って多く分類する傾向があったので、医療データでの傾向を検討したい

【画像】

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up