GECアドベントカレンダー12/23
大変久しぶりの投稿です。自分は語彙学習支援の研究をずっとやってきた人です。
Educational Data Mining(EDM)は教育データマイニングのトップ国際会議です。ここに、GECが関連する論文が載っていたので、こちらを紹介しようと思います。
Accurate modelling of language learning tasks and
students using representations of grammatical proficiency, Ahmed H. Zaidi et al, EDM 2019
えーと、すみません、やっぱり飛ばし読みするとダメですね…Introductionを斜め読みして何やっているのかと実験結果だけ見たら、最初、人手のground-truthが何かわからず全然読めませんでした。
時代が2019年なので、まだBERTがNLPで台頭して来る前の論文です。要するに語学学習者の能力や、語学学習者に課す課題を表現するような表現学習がしたいという論文です。
Write & Improveという著者らが管理している、かなり大規模な語学学習者向けの自動添削システムがあり、これを使った話になっています。このシステムでは、学習者はお題を出されて、それに対して回答します。そうすると、その回答をシステムがCEFRのレベルに対応する点数で全体を自動添削してくれるうえ、どの部分が誤っていそうか検出してくれます。学習者は、本人が満足するまで何度でも書き直しができるという設定です。
このシステムの過去2年間、延べ約300万件の回答、登録ユーザ30万人というかなり大規模なデータを扱う話になっています。かなり分かりにくいのですが、このデータは、結局、スコアも添削も人手ではなく自動で行われるので、自動的に計算された値しか出てきません。当たり前ですが、一部は人が見てground-truthを決めてやる必要があり、それが何なのかでかなり迷いました。
データセットではなく(!)、提案モデルの節を見ると、ようやくこれが何かわかるようになっています。学習者の回答の添削自体は自動ですが、学習者に出されているお題に紐づけられた難しさは人手データなようです。
そこで、自動添削結果を予測するモデルと、(人手の)お題の難しさを計算するモデルを組み合わせて、同時学習させることで、人手の情報をモデルに入れるように担保されているように見えます。
評価のMSEの所が、自動添削結果のスコアを予測する…という話になっていて、最初、何が目的なのか全く分かりませんでしたが、表現学習で作った表現の性能を計測したいという意味であれば、まあわかる気がします。が、評価としてちょっと微妙な気はしました。
著者のAhmed H. ZaidiはEDMの他、AIED2020のshort paper色々なところで語学学習支援の研究を書いているっぽいです。