概要
2012年に開催された 誤り検出・訂正ワークショップ 2012 について紹介します。
経緯
2011年ごろ言語学習者の誤り訂正の研究に取り組み始めたということと、2012年からは NLP 若手の会シンポジウム(YANS)の共同プログラム委員長になるということがあり、YANS で新しい取り組みを始めたい、という意図があり、英作文の誤り検出・訂正に関する共通タスクの可能性について甲南大の永田さんに相談してみたところ、ちょうど永田さんもそういう共通タスクに興味があったそうで、教育測定研究所(KJ コーパスは甲南大と教育測定研究所で作ったコーパスなので)とも話をつないでいただき、実現に漕ぎ着けた、というものです。
いま英語文法誤り訂正の共通タスクというと、英語学習者コーパスにアノテートされている全ての誤りを対象とする CoNLL 2013, CoNLL 2014 や BEA 2019 が有名ですが、2011年から2012年にかけては HOO: Helping Our Own という共通タスクが開催されていて、冠詞や前置詞のように誤りの種類を限定した誤り検出・訂正の研究がされており、むしろ全ての誤りを対象とするような研究はどちらかというと異端でした。一方、自分たちは Lang-8 のデータを使えば全ての誤りを(精度がそんなに出るとは正直思っていなかったですが)対象とすることができることが分かっていたので、共通タスクとして全ての誤りを対象とするトラックも設けたい、という下心もありました。
最終的には4チームの参加があり、YANS の中でのイベントとして開催してもらったこともあり、YANS の中で表彰式を開催したりもしました。予稿集は Google Sites、ソースコードは GitHub にて全て公開されており、システム出力についてもその後のバージョンの KJ コーパスに含まれています。(このワークショップ開催の経緯についての論文も執筆・国際会議に投稿しましたが、現在のところお蔵入りになっています)
感想
共通タスクをオーガナイズするのは初めてで、やってみるとものすごくたくさんのことを(相当前から)準備する必要があり、参加するのとオーガナイズするのは全然別物だなあ、と思いました。それ以降、ときどき参加した共通タスクの運営がグダグダだったりすることにしばしば遭遇しても、「まあスケジュール通り動くのは大変だよね」と広い心で見ることができるようになりました(永田さんがしっかりスケジュールの線表を引いてくださっていたので、EDCW 2012 についてはグダグダになるところはなかったです)。
あと、NAIST 松本研では松本先生も乾先生も共通タスクに参加することに関してはあまりポジティブな反応はなく(自分は学生時代には IWSLT とか NTCIR とか共通タスクには1-2年に1回参加していました)、共通タスクの参加者は他の人が作った問題を解くだけで、本当に偉いのは問題を提起する共通タスクの提案者の方だ(あるいは、できたコーパスを使って手法の研究をするのもいいが、そもそもコーパスを作ること自体がどういう問題を解くかを決めていることなので、重要である)、ということを(特に乾先生が)何回かおっしゃっていたのを覚えていますが、自分がオーガナイズする側になってみて初めて、これはそういう意味だったのか、ということが分かりました。論文を読むのと論文を書くのは漫画を読むのと漫画を描くのくらい違う、とは思うのですが、誰かが作ったコーパスを使って研究するのと、自分でコーパスを作って研究するのも、同じくらい違います。
ちなみに、共通タスクについてよくある誤解は、共通タスクをすればいろんな手法が登場して最強の手法が分かる(各チームは SoTA を目指す)、みたいなのがありますが、それはそこまで重要ではなく、同じデータ・同じ評価尺度で研究をする基盤が作られる、というのが共通タスクにおける一番の意義で、二番目の意義はそれを前提とした(このデータ、この評価尺度には問題がある、という問題提起も含め)いろいろな議論ができる、というものです。共通タスクを開催するとそのたびにテストデータが作成される(場合によってはシステム出力が収集・公開される)、というのもコミュニティにとっては重要で、開催するたびに言語資源が増えるのです(スケジュールやタグ付け、取りまとめをどうやるかという運営が大変ですが)。
EDCW ワークショップについては2回目の開催を検討し、やめようかという話になったので以降は開催されていませんが、ここで参加した NAIST チームを率いていた水本さんが 2014年から2015年にかけての Project Next NLP の英文校正タスクのタスクリーダーとなってくれ、(いまは国内で複数のグループが取り組んでいますが)その後の日本国内での文法誤り訂正研究につなげることができたかなと思います。
最後になりますが、その後 YANS でもハッカソンがときどき開催される(参加者もかなりの人数がいる)ようになったので、せっかく手が動く人がたくさん参加しているイベントだし、交流できる機会を活用できるようになった、というのはよかったと思っています。こういうイベントが対面で開催できるようになるといいのになあ、と思ったりしています。