概要
TEC-JL コーパス について紹介します。
3行まとめ
- 日本語学習者の文法誤り訂正システムのための評価コーパスです。
- (手書きの作文ではなく)キーボードから入力した作文に、最小限の訂正で文法的に正しい文になるよう、文法誤り訂正情報を付与しています。
- 大幅な訂正も許容して、文法的に正しくかつ流暢な文にするようなコーパスを現在作成中です。
いきさつ
自分の所属する都立大システムデザイン学部情報科学科(およびその前身の情報通信システムコース)では、研究室配属は4年生ですが、3年生の後期に「研究室インターンシップ」として研究室に仮配属され、(研究室ごとにそれぞれ異なる)研究を体験できる、というシステムがあり、それの一環として研究をしたい(学部3年生で論文を書いてみたい)という学生に対しては、半年間研究をして論文を書いてもらい、3月の言語処理学会年次大会で発表する、ということをしています。
2019年は、その時日本語学習者の文法誤り訂正の研究もやりたいけど、ちょっと使いやすい評価データがないよね(手書きの作文に対する訂正情報が付与されたデータはあるのですが、文法誤り訂正システムの訓練データは手書きの作文ではないのです)、ということを研究室内で話していて、そのデータを「研究室インターンシップ」で作ろうか、ということを、TA と相談していて、「研究室インターンシップ」に来た3年生と相談したところ、興味のあるメンバーがいたので興味のあるメンバーのみでやることにしました。
研究室インターンシップとしてやるとしたら、やっぱり学会発表はしたいよね、ということで、どこに投稿するかということも相談したのですが、例年のように言語処理学会(自然言語処理に関する日本国内で最大の学会)で発表するのはよいとして、国際会議に出してみてもいいんじゃない? ということで、言語資源に関する世界最大の国際会議である International Conference on Language Resources and Evaluation (LREC) を目指してみる、ということになりました。研究室インターンシップで国際会議に投稿するのは初めてですが、英語で投稿することによってハードルが上がるというのもさておき、言語処理学会年次大会であれば投稿締め切りが1月中旬なのに対し、LREC だと投稿締め切りが11月なので、2ヶ月研究を前倒ししないといけないのが問題で、結局例年であれば10月の中旬くらいからデータ作成を始めるのに対し、夏休みからデータ作成を始める、という形でスタートしました。
コーパスのアノテーションであーだこーだ言いながら、データを眺めつつ議論して仕様を決めたり見直したりする作業は楽しいものでした(実際にアノテーションをしていた学生諸氏が楽しいと思っていたかどうかは分かりませんが)。基本的には毎週1回ミーティングをして、その1週間でこれくらいアノテーションする、という分量を決めて複数人で同じ文章を独立にアノテーションし、ミーティングで全員の結果を比較して確認・議論する、というスタイルです(最初だけ、全員がどれくらいのペースでアノテーションができるのかを確認するため、文数ではなく時間を決めてアノテーションをしてもらいます)。
議論の結果、アノテーションが(ケアレスミスにより違っただけで)一致するもの、仕様を決めることによって一致するもの、見解の相違により一致しないもの、等別れます。ケアレスミスのケースはよいのですが、仕様を決めないと一致しないものに関しては、コーパス全体で整合性のある仕様にしないと全体が首尾一貫しない(あるいは粒度が異なるちぐはぐな仕様になる)ので、マークをつけて「これはもう少ししてからまた議論して決めたいから、保留」となることもあります。言語資源作成に慣れていないと、アドホックな仕様にしてしまうことがよくあります(あるいは、途中で仕様が変わってしまったのに、全体を見返さなかったり、あるいは意識せずに仕様をごっちゃにしてしまい、データがぐちゃぐちゃになったり)。このあたりをコントロールするのは教員や TA の役目です。幸いなことにこのデータは「最小の編集で文法的に正しくなるように訂正する」という原則で作成しているので、誤りがあったとしてもそこまで人によって訂正が異なるということはなく、議論をするとだいたい一意に決めることができました(もちろん、原文の意図が分からず、この部分が誤っているのは明らかだが、訂正するのが難しい、というケースもありましたが)。
そして採択へ
スケジュール的には厳しかったと思いますが、データ作成は淡々と進み、なんとか国際会議も(締め切りも1週間だけ延長されました)投稿し、無事採択されました。3年生で査読つき国際会議に投稿して採択されたのは初めてだったので、いつもと違うことができて自分もいい経験になりました。そして、予定通り、言語処理学会年次大会にも投稿し、データも公開しました。
誤算だったのは、2020年から新型コロナウイルスが猛威をふるい、言語処理学会年次大会はオンライン開催になり、そして上記の LREC は開催自体がキャンセルになってしまったことです。筆頭著者の小山くんはうちの研究室に進学してくれたのですが、進学後もまだ一度も学会が対面開催になっておらず、ずっとオンラインのままで、対面開催できたらいろんな人に会って話したりできるだろうになあ、とちょっと申し訳ないです(不可抗力ですが)。
2021年現在、すでにいくつか都立大以外のグループでこのデータを使った研究をしてくれている論文がちらほら出ていて、コーパスを構築・公開してよかったなと思っています。公開しているデータでは、GitHub に前処理用のスクリプトも置いてもらったので、同じ設定で実験をすることもできます。
そして、今年の「研究室インターンシップ」では、この研究に筆頭著者として参加してくれた小山くんが今度は TA になってくれて、流暢性を考慮した文法誤り訂正を施したデータセットを構築中です。こちらについては2022年3月の言語処理学会年次大会で発表予定です(2020年はキャンセルになった LREC が2022年もあるのですが、そちらはスケジュール的に厳しいので見送り予定)ので、乞うご期待!
参考文献
- 小山碧海, 喜友名朝視顕, 小林賢治, 新井美桜, 小町守. 日本語学習者の文法誤り訂正のための評価コーパス構築. 言語処理学会第26回年次大会 (NLP2020), 2020年3月17日.
- Aomi Koyama, Tomoshige Kiyuna, Kenji Kobayashi, Mio Arai, Mamoru Komachi. Construction of an Evaluation Corpus for Grammatical Error Correction for Learners of Japanese as a Second Language. Proceedings of the 12th Language Resources and Evaluation Conference, 2020.