概要
中国語に関する文法誤り訂正の状況について紹介します。
ニューラル以前
英語文法誤り訂正と比べると、中国語の文法誤り訂正の研究は盛んではありませんでした。2014年に開催された NLP-TEA というアジア圏での自然言語処理の教育応用に関するワークショップで、台湾の中学生が書いた作文に対する文法誤り検出の共通タスクが開催され、少しずつ研究が増えてきました。
ニューラル以降
上記に加えて断続的に中国語誤り検出・訂正の共通タスクが開催されており、NLPCC という(ほぼ中国語でしか情報がありませんが)国際会議でも共通タスクが開催されており、もっとも新しい共通タスクは NLP-TEA 2020(AACL のワークショップ)で開催されたものです。NLPCC では Lang-8 から抽出したデータが訓練データとして提供され、北京大学中国語学習者コーパスから取られた2000文がテストデータとして使われていて、最近の研究では NLPCC 2018 のデータを使うのが主流になっています。(ちなみに Lang-8 コーパスは再配布不可です)
Lang-8 コーパスが使われるようになってからは、(ニューラル)機械翻訳の手法を使うのが一般的であり、2021年現在はほぼ全ての研究が深層学習を用いています。
最近の手法に関しては、以下のリンクがまとまっています。中国語以外を対象にしたものも混ざっていますが、ニューラル以降の中国語を対象にした研究で、英語で書かれているものは網羅されていると思います。
雑感
中国語文法誤り訂正は中国語でしか論文がなかったりする場合もあるので、ちょっとサーベイが難しいことがあるのですが、中国語 NLP の層の厚さも実感します。また、中国語はスペリング誤り訂正の研究は昔から盛んで、字の形や音の類似性を考慮した手法が繰り返し提案されていて、英語の文法誤り訂正の手法と違う発展を遂げていて、言語による違いがおもしろいです。
ちなみに MaskGEC (AAAI 2020) が SoTA のようですが、この論文で報告されている精度が再現できず、著者に聞いても返事がないので困っています。再現できた人がいたら教えてください。(我々と同じく、これのスコアがなかなか再現できない、というブログ記事はあるようです)