概要
日本語学習者の文法誤り検出・訂正の評価に用いることができる NAIST 誤用コーパスについて紹介します。
日本語学習者コーパス
日本語学習者の書いた文章に対して文法誤りの情報が付与されたコーパスは以下のものがあります(先日紹介した「「語学学習支援のための言語処理」 の p.15 の「代表的な日本語学習者コーパス」を参照)。
名称 | アドレス |
---|---|
日本語学習者会話 DB | https://mmsrv.ninjal.ac.jp/kaiwa/ |
寺村誤用例集データベース | https://db4.ninjal.ac.jp/teramuradb/ |
学習者作文コーパス「なたね」 | https://hinoki-project.org/natane/ |
日本語学習者作文コーパス | http://sakubun.jpn.org/ |
対訳作文DB | https://mmsrv.ninjal.ac.jp/essay/ |
国際日本語学習者作文コーパス及び誤用辞典 | https://corpus.icjs.jp/corpus_ja/ |
このうち、「対訳作文 DB」について、誤りタイプの情報を XML 形式で付与したものが NAIST 誤用コーパスになります。「対訳作文 DB」は国立国語研究所で収集・公開されているデータベースで、さまざまな国・地域の日本語学習者の書いた課題作文に対する手書き原稿に対して、一部に添削情報が付与されています。この添削情報には誤りタイプが付与されていないので、それに誤りタイプを付与した、というものです。
日本語学習者コーパスに対する文法誤りのタイプは、上記の中でも寺村誤用例集データベースや日本語学習者作文コーパス、国際日本語学習者作文コーパスおよび「なたね」には付与されているのですが、寺村誤用例集データベースには誤用に対する正用例がアノテートされていないので、誤り検出の評価には使えるものの誤り訂正の評価には使えませんし、日本語学習者作文コーパスは正用例がアノテートされているものの「文法」「文字」「文体」という粗いタグしかついていません。国際日本語学習者作文コーパスと「なたね」には正用例と誤用タグの両方がついているものの、規模が小さいといった問題があります。
そこで、「NAIST 誤用コーパス」では、大規模に収集された「対訳作文 DB」をベースとして、日本語学習者の文法誤りに関する誤用タグを付与することで、日本語文法誤り検出・訂正の評価を行うことができるデータセットを作成しました。現在、入手したい人は筆頭著者の大山さんにメールすることで入手できますし、このデータを使って日本語文法誤り訂正システムの評価をしている研究も少しずつ増えてきました(このデータは誤りタイプが網羅的についているのがポイントなので、このデータで評価する人は誤りタイプごとの分析もしてもらえると嬉しいです)。
経緯
小町が2006年に NAIST 松本研で M2 になったときに、NAIST 誤用コーパスの筆頭著者である大山さんが D1 で入学され、日本語教師であった経験から自然言語処理技術を日本語教育に活かしたい、ということで研究をスタートしたのですが、そもそも日本語教育支援に使えるデータがない、というのが一番の問題で、このデータの作成にまず着手する必要がありました。とはいえ、自分は 先日のエントリ でも書いたように学生時代は研究的には言語教育グループとは関わっていなかったので、NAIST 誤用コーパスの研究に関わるようになったのは助教になってからです。
その間、大山さんも3年間では残念ながら博士号を取得することができず、学生としてしばらく延長されたあと、満期退学されて研究員になり、それでも研究に目処がつかずに一度現場(日本語教師)に戻られたりしていましたが、自分が研究に関わるようになって、工学的な研究サイクル(国内査読なし発表→査読あり国際会議発表→査読あり論文誌)で一度研究を回す、という目標で研究を再始動しました。2012年にはテキストアノテーションワークショップ(査読なし)で発表し、2013年にはコーパス日本語学ワークショップ(査読なし)と PACLIC(査読あり国際会議)で発表し、順調に研究が発展した、ように見えました。が……
問題は論文誌でした。PACLIC での発表を元に投稿を準備したのですが、最初は(PACLIC での発表が英語だったので)英語の原稿を用意していたところ、日本語学習者向けの話でもあるし、日本語で書き直したりして2014年に言語処理学会論文誌に投稿し、リジェクトになって改訂して2015年に情報処理学会論文誌に投稿したのですが、これもリジェクトになってしまいました。日本語教育系の論文誌に出し直すことも検討したのですが、査読コメントはいずれもまっとうなコメントばかりだったので、さらに改訂してもう一度言語処理学会論文誌に投稿し、条件付き採録を経て2015年12月24日にようやくアクセプトの通知がありました。クリスマスプレゼントですね、というやりとりをしたのを思い出しました。(大山さんはこの研究を元に博士号を取得されています)
得られた知見とその後
論文誌が難産であった理由は NAIST 誤用コーパスのタグ設計にあるのですが、コーパスを設計・アノテートする段階で、大山さんが日本語教師としての経験からこの誤用が大事である、という経験があって設計したのですが(これ自身は自分の体験がリサーチクエスチョンにつながっているというとても重要なことので、それが悪いということではありません)、そこで十分に他のタグセットとの比較検討ができていなかったので、差分を説明しにくくなってしまった、というものです。コーパスを作るに当たっては、手戻りが発生すると(機械学習でモデルを走らせるのと訳が違って、地道な作業をもう一度やらなくてはならなくなって)つらいですし、論文も書きにくくなってしまうので、ちゃんと設計した方がいい、ということを痛感しました。また、XML でデータのアノテーションがされているのですが(Oxygen という XML エディタでタグ付けをしていました)、GEC のことだけを考えるとあまり使いやすい(アノテートしやすい)ものではないな、とも思いました。
そこで、自分は首都大でも日本語学習者の文法誤り訂正の研究をすることになったので、先日紹介した TEC-JL コーパス のように GEC の評価のためにもっと使いやすいデータも作成したりしました(2019年のことです)。誤りタグの情報はありませんが、Google Spreadsheet を使ってアノテーションをして、割とスムーズにコーパスを構築することができたなと思っています。
一方、TEC-JL コーパスには誤りタグの情報が付与されていないので、NAIST 誤用コーパスのように詳細な分析をすることができません。英語では ERRANT と呼ばれる評価ツールがあって自動である程度の分析ができるようになっているのですが、日本語ではそのようなこともできないのです。また、日本語文法誤り訂正システムの評価をするにも、文法誤り訂正システムに対して評価したデータがないので評価をすることもできません。まだまだやることはあるなぁと思っています(これに関しては乞うご期待)。
参考文献
- 大山浩美, 小町守, 松本裕治. 2016. 日本語学習者の作文における誤用タイプの階層的アノテーションに基づく機械学習による自動分類. 自然言語処理.