概要
小町が文法誤り訂正の研究に関係するようになった経緯を振り返るエントリーです。
奈良時代
小町は2005年に NAIST(奈良先端科学技術大学院大学)の情報科学研究科に入学しました。修士と博士の5年間、松本研究室(自然言語処理学講座)に所属して学生をしていました。松本先生は言語教育を自然言語処理の重要なアプリケーションの一つだと考えていて「言語教育勉強会」が立ち上がったり消えたりしていたのですが、自分が学生の頃は特に言語教育関係の研究には関わることなく助教になりました。
2010年に助教になったとき、松本先生からの指示は「一つの研究グループ(松本研用語では「勉強会」)の面倒を見てほしい。それ以外は好きにして」ということだったので、助教になったからといって特に言語教育(勉強会)に関わった訳ではなく、博士後期課程の時に取り組んでいたウェブマイニングに関する勉強会を開いたりしていたのですが、助教になって1-2年目に当時の M1 の学生(田尻くん)が「Lang-8 というウェブサービスがある。ここから言い換え知識を抽出したい」と言うので、行きがかり的に一緒に研究することになりました。
実のところ、ここからは彼の最初のアイデアのような言い換え知識は思ったように抽出できなかったのですが、これは面白いサービスだ、何かに使えるのでは、と思い、自分でスクレイピングするスクリプトを書いて1ヶ月くらいかけてデータを収集しました。自分的には言語学習の文脈で取り組んだというよりは、ウェブマイニングの文脈で触れたのがきっかけだったのでした。
その後、詳しい順序関係は忘れてしまいましたが、同じく当時 M1 の学生(水本くん)が Lang-8 のデータを使えば統計的機械翻訳手法で文法誤り訂正ができるのでは、ということで取り組み始め、実際にやってみたところそこそこできるようだったので、これをまとめて言語処理学会年次大会や国際会議(IJCNLP)に投稿して発表しました。それまでは統計的機械翻訳を用いた手法でも、擬似データでしか訓練・評価していなかったので、ウェブから抽出したデータとはいえ実データで訓練・評価できたのは一つのターニングポイントだったと思います。あと、水本くんは昨日の記事に登場した甲南大の永田さんのところの卒研生で、NAIST に来ても語学学習支援の研究に取り組むことになったので、永田さんともご縁ができてよかったです。
ちなみに奈良にいた間には Lang-8 の開発をしていた喜洋洋さんにも NAIST 松本研に来ていただいたりして、サイトの運用だとかデータの共有だとかについても色々相談できて、研究のサイドから開発を応援できるといいなと思っていました。(Lang-8 のデータがないとこれから先の文法誤り訂正の発展はなかったでしょう)
江戸時代
2013年に小町は首都大に移りましたが、その前後に英語の文法誤り訂正に関する共通タスクが相次いで開催されました。エポックメイキングだったことの一つは、2012年の CoNLL の共通タスクで NAIST のチームが提案した Lang-8 データと統計的機械翻訳を組み合わせた手法が前置詞誤り訂正でトップの成績を収めたことです。それまでは誤りの種類ごとにルールを書いたり分類器を訓練したりするのがスタンダードなアプローチで、かつ評価も誤りの種類ごとにやるのが主流だったのですが、誤りの種類を限定しないで訂正できる手法が登場したので、評価もそれに合わせて全ての誤りを対象にするようになっていったのです。
そうこうしていると世の中が深層学習の時代になり、文法誤り訂正も機械翻訳の手法がそのまま適用できるため、統計的機械翻訳アプローチからニューラル機械翻訳アプローチに移り変わっていきました。とはいえ、2015-2016年くらいは、このタスクは(大規模な対訳データが使える機械翻訳と違い)ニューラル手法ではうまく行かないのでは?と思っていた人も(自分を含め)多かったと思います。入力と出力がほとんど同じなので、入力をコピーするメカニズムがあるとうまくいく、というのがこのタスク的には大きい発見だったと思いますが、2018年以降はもうニューラル手法ではダメだと思う人はいなくなったでしょう。
2019年以降の大きなニュースとしては BEA というワークショップの共通タスクが開催され、ここで標準的なデータセットとして(既に研究では広く用いられていた)Lang-8 が採用されたことでしょうが、この辺りで訂正の精度は十分高いものが作れることもはっきりし、Grammarly のようなアプリケーションが登場してきたのは記憶に新しいです。他の深層学習における系列変換タスクで提案された手法が輸入されたり、日本でも文法誤り訂正の研究に取り組むグループが増えてきたのもこのあたりでした。
2021年現在はオープンソースで公開されている文法誤り訂正のツールも複数存在し、アプリケーションをユーザとして使うだけでなく、研究目的でも手軽に取り組んでみることができるようになっています。自分はというと、国際会議では NLP Applications という自然言語処理の教育応用に関する分野の査読に関わることが多いのですが、英語以外の言語でも文法誤り訂正のためのデータが整備されたり、多言語で用いることができる手法が提案されたり、研究レベルの技術から、開発レベルの技術に移行しつつある、ということを感じています。
まとめ
文法誤り訂正の研究の今後の予想については記事を改めて書こうと思いますが、振り返ってみると2010-2011年に自分が Lang-8 に出会ったのが、文法誤り訂正に関わることになったきっかけで、今となってはウェブマイニングの研究には全く携わっていないのですが、ウェブマイニングの研究を当時はしていたな、というのを思い出すことができておもしろかったです。人生何が研究につながるかは分からないもので、今研究室で取り組んでいることも、全然別の文脈で意味があったりするのかも、と思ったりしています。