概要
本記事では、日本語での記事がある程度豊富に存在する英語と日本語、そして GEC アドベントカレンダー 2021 で既に記事が書かれている中国語、の3つの言語を除いた言語でのGECに関して、現在 (2021年12月15日) 主に使われているデータセットやそれを用いた研究などを紹介していきます。
存在するすべての言語について網羅することは難しいため、近年研究が行われているもの・ある程度広く使われているもの・英語で情報集取が可能かつ入手可能であるもの、などの基準で自分が考える主要な言語に絞っています。また、言語によって情報の細かさに差があったり、漏れもあるかと思いますがご容赦ください。
ロシア語
今回紹介する言語の中で近年の研究が最も多いと思われる言語です。
近年スタンダードとなっているデータセットは Grammar Error Correction in Morphologically Rich Languages: The Case of Russian [Rozovskaya and Roth, 2019] によって発表された RULEC-GEC です。
RULEC-GEC は二人のアノテータによってアノテーションされており、訓練データ 4,980 文、開発データ 2,500文、評価データ 5,000 文で構成されたデータセットで、ほかの言語のデータセットと比べても訓練データがかなり少ないのが特徴の一つになります。論文内の記述によれば、誤り率は 6.3% であり、ほかの言語と比較すると少し低めです。
2021年12月15日時点で RULEC-GEC で SOTA のスコアとなっているのは、A Simple Recipe for Multilingual Grammatical Error Correction [Rothe et al., 2021] の F0.5 値:51.62 となっています。後述する他の言語のデータセットと比較するとスコアがかなり低く、訂正の難しいデータセットであるといえそうです。
また、ACL 2021 の findings において New Dataset and Strong Baselines for the Grammatical Error Correction of Russian という題の論文で、Lang-8 のロシア語データにアノテーションを施した RU-Lang8 という名前のデータセットが作られているようです (ただし、Github のリポジトリは7か月間 README.md のままで止まっていますが)。
以下、ロシア語 GEC についてのざっくりとした関連研究です。
- Grammar Error Correction in Morphologically Rich Languages: The Case of Russian [Rozovskaya and Roth, 2019]:RULEC-GEC を作り発表した研究。
- A Simple Recipe for Multilingual Grammatical Error Correction [Rothe et al., 2021]:RULEC-GEC における SOTA の研究。
- Grammatical Error Correction in Low-Resource Scenarios [Náplava and Straka, 2019]:DIRECTNOISEによる疑似誤り生成で SOTA に次ぐスコアを出している研究。
- Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder–Decoder Model [Katsumata and Komachi, 2020]:事前学習モデルを用いてシンプルなベースラインとなるスコアを出している論文であり、RULEC-GEC の訓練データの少なさが大きな課題であることに言及しています。
チェコ語
ロシア語と同じスラヴ語族ということで、続いてはチェコ語の GEC についてです。
チェコ語 GEC で近年主に用いられているデータセットは、Grammatical Error Correction in Low-Resource Scenarios [Náplava and Straka, 2019] によって発表された AKCES-GEC です。
AKCES-GEC は、訓練データ 42,210 文、開発データが 2,485 文、評価データが 2,676 文で構成されているデータセットです。
こちらの誤り率は論文内の記述で 21.4% となっており、5単語に1つは誤りがあるという、ロシア語とは打って変わってかなり高めの数値になっています。また、学習者のL1によって分けられたデータが存在していることも特徴の一つです。
2021年12月15日時点で AKCES-GEC で SOTA のスコアとなっているのは、ロシア語と同じく、A Simple Recipe for Multilingual Grammatical Error Correction [Rothe et al., 2021] の F0.5 値:83.15 となっています。このスコアはかなり高く、訂正が比較的簡単であるデータセットであると考えられます。
以下、チェコ語 GEC についてのざっくりとした関連研究です。
- Grammatical Error Correction in Low-Resource Scenarios [Náplava and Straka, 2019]:AKCES-GEC を発表した研究であり、F0.5 値でも最大 83.00 のスコアを出しています。
- A Simple Recipe for Multilingual Grammatical Error Correction [Rothe et al., 2021]:AKCES-GEC における SOTA の研究。
- Character Transformations for Non-Autoregressive GEC Tagging [Straka et al., 2021]:非自己回帰モデルを用いて訂正を行っている研究。
ウクライナ語
よく似た言語続きで次はウクライナ語です。ウクライナ語についてはまだ研究自体はほとんどありませんが、ロシア語やチェコ語などスラヴ語族は比較的 GEC の研究が盛んであり、2021年に新しくデータセットが発表されたため今回言及しています。
データセットが発表された論文は UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language [Syvokon and Nahorna, 2021] で、 UA-GEC というデータが作られました。この論文の著者は多くの人がお世話になっているであろう Grammaly の方です。UA-GEC は、訓練データ 18,225 文、評価データ 2,490 文で構成されており、誤り率は論文内の記述で 7.1 % です。
このデータセットを用いた研究自体は自分が把握している中では恐らくまだ存在していませんが、ほかの言語と同じくデータセットが整備されることで、今後研究が進むのではないかと思われます。
ウクライナ語 GEC について読むべき論文は、現時点ではデータセットを発表した UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language [Syvokon and Nahorna, 2021] ということになります。
また、上述した他のスラヴ語族の GEC に関する論文を読んでみてもいいかもしれません。
ドイツ語
続いては英語に近い言語だと考えられるドイツ語についてです。ドイツ語も近年いくつかの研究が行われており、英語などを除いた言語の中では比較的盛り上がっているのかな、という印象があります。
ドイツ語の GEC で主に使われているデータセットは、Using Wikipedia Edits in Low Resource Grammatical Error Correction [Boyd, 2018] によって発表された Falko-MERLIN と呼ばれるコーパスになります。
こちらのデータは Falko と MERLIN と呼ばれる2つのデータから抽出された文対をまとめたものになり、全体で訓練データ 20,237 文、開発データ 2,503 文、評価データ 2,337 文になります。誤り率は [Boyd, 2018] の論文中には記述されていませんが、チェコ語のデータセットの作成も行っていた [Náplava and Straka, 2019] の論文において記述があり、16.8% だと言われています。
Falko-MERLIN GEC において SOTA となっているのは、ロシア語やチェコ語と同じ A Simple Recipe for Multilingual Grammatical Error Correction [Rothe et al., 2021] で F0.5 値が 75.96 となっています。このスコアはチェコ語と同様に他の言語と比較して高めであり、ある程度訂正が簡単であることが考えられそうです。
以下、ドイツ語 GEC についての関連研究です。
- Using Wikipedia Edits in Low Resource Grammatical Error Correction [Boyd, 2018]:ドイツ語学習者データの発表を行った研究であり、Wikipedia の Edits を疑似データとして用いているため、そちらの文脈でもよくお見かけする論文です。
- A Simple Recipe for Multilingual Grammatical Error Correction [Rothe et al., 2021]:現在のドイツ語 GEC の SOTA のスコアを出している論文。
- Character Transformations for Non-Autoregressive GEC Tagging [Straka et al., 2021]:チェコ語 GEC の箇所でも挙げた論文ですが、ドイツ語についても実験を行っています。
スペイン語
スペイン語 GEC は国際会議において他の言語ほど研究が盛んに行われているわけではありませんが、2020 年に LREC において新しいデータセットが発表されているため、ここで紹介します。
論文は Developing NLP Tools with a New Corpus of Learner Spanish [Davidson et al., 2020] で、データセットの名前は COWS-L2H です。訓練データが 10,143 文、開発データが 1,408 文、評価データが 1,127 文となっています。データセットの特徴として、年齢や性別、L1などかなり多くの情報が各エッセイのメタデータとして配られている点が挙げられます。
他の言語と同じく SOTA の研究の紹介をしたいのですが、自分の把握している限り、このデータセットを使った研究は2021年12月15日現在、 2021年の BEA で行われた1つの研究しか存在していません。論文は Data Strategies for Low-Resource Grammatical Error Correction [Flachs et al., 2021] で、F0.5値は 57.32 です。ちなみにこの研究は性能向上目的の研究というよりは分析に重きを置いた研究であることが論文内でも明記されており、性能に関してはまだまだ向上の余地があると思われます。
以下、スペイン語 GEC の関連研究です。
- Developing NLP Tools with a New Corpus of Learner Spanish [Davidson et al., 2020]:COWS-L2H を作成した論文であり、論文内での GEC モデルとして LSTM を使っています。
- COWS-L2H: A corpus of Spanish learner writing [Yamada et al., 2020]:スペイン語のリソースに関するジャーナルに投稿された、 COWS-L2H を発表する論文の別バージョンです。
- Data Strategies for Low-Resource Grammatical Error Correction [Flachs et al., 2021]:現状の SOTA の研究です。スペイン語に限らず今回紹介しているロシア語・チェコ語・ドイツ語についても研究を行っています。
- Grammatical error correction for Spanish health records [López et al., 2021]:こちらはスペイン国内での学会の発表になりますが、教育応用として扱われることが多い GEC において珍しい、医療記録の GEC の論文です。調べた限り公開はされてないように見えますが、新しいデータセットも作っています。
ルーマニア語
ルーマニア語も 2020 年に新たにデータセットが発表された言語になります。論文は Neural Grammatical Error Correction for Romanian [Cotet et al., 2020] でデータセットは RONACC です。ちなみにこの論文は IEEE の会員にならないと読めません。
実のところ自分自身もこの論文については内容を読めていないので、詳しい部分の紹介はできないのですが、ダウンロード可能なデータに基づくと、文数としては訓練データが 7,082 文、開発データが 1,519 文、評価データが 1,518 文になります。
また、このデータセットを使ったその他の研究に関しては現在存在していないため、[Cotet et al., 2020] の結果がそのまま現在の SOTA だと考えられ、F0.5 値が 53.76 になります。
以下、ルーマニア語 GEC の関連研究になります。
- Neural Grammatical Error Correction for Romanian [Cotet et al., 2020]:データセット RONACC を作った論文。
- Improving Writing for Romanian Language [Florea et al., 2019]:GEC の研究ではないですが、ライティング補助の研究が存在します。
ギリシャ語
ギリシャ語の GEC のデータセットは Stand-off annotation in learner corpora: compiling the Greek Learner Corpus (GLC) [Tantos and Papadopoulou, 2018] で公開された GLC が存在しています。
このデータセットを使用した GEC の研究は自分が調べた限り見つかっておらず、スコアなどはありませんが、RANLP 2021 において ELERRANT: Automatic Grammatical Error Type Classification for Greek [Korre et al., 2021] という論文でギリシャ語の ERRANT が公開されています。
以下、ギリシャ語 GEC の関連研究です。
- Stand-off annotation in learner corpora: compiling the Greek Learner Corpus (GLC) [Tantos and Papadopoulou, 2018]:GLC を公開した研究。
- ELERRANT: Automatic Grammatical Error Type Classification for Greek [Korre et al., 2021]:ギリシャ語の ERRANT を公開した論文。ERRANT の性能を確かめるために GLC や疑似データに対して誤りタイプの付与も行っています。
ヒンディー語
ヒンディー語は研究としてはほとんど存在しませんが、WikiEdits のデータに対して、新たに作ったヒンディー語の ERRANT を適用することで評価データを作成した研究 Generating Inflectional Errors for Grammatical Error Correction in Hindi [Sonawane et al., 2020] による HiWikiEd が存在します。文数は約 13,000 文で、誤り率は論文内の記述によると 6.7% です。
このデータを使った研究が他に存在しないため SOTA のスコアなどはないのですが、論文内での最高スコアは F0.5 値で約 49 です。また、データセットの特徴というよりは言語の特徴にはなりますが、論文を読んでみると Inflection の誤りが非常に多く、訂正が難しそうであることがうかがえます。
以下、ヒンディー語の GEC の関連研究です。
- Generating Inflectional Errors for Grammatical Error Correction in Hindi [Sonawane et al., 2020]:評価データセット構築の論文。
- Detection and correction of non word spelling errors in Hindi language:ヒンディー語の spell 誤りの検出と訂正に関する研究。
アラビア語
今回の記事で最後に紹介する言語はアラビア語です。
アラビア語は今回調べてみるまで自分も知らなかったのですが、2014 年と 2015 年に 2 度 shared task が開催されるなどある程度盛んにおこなわれていたようです。主に使われているデータセットは2つあり、1つ目が Large Scale Arabic Error Annotation: Guidelines and Framework [Zaghouani et al., 2014] で公開された QALB であり、2つ目が An evaluation of the Arabic error tagset v2 [Alfaifi and Atwell, 2014] で公開された ALC です。
調べた際の実感としては、俗にいうニューラル以前の研究がほとんどであり、2015 年に開かれた QALB のデータセットを使った shared task で最高のスコアは F0.5 値が 41.20 であったようです。(shared task 以降の研究は調べきれませんでした...)
また、この後の関連研究でも出しますが、2021 年の CoNLL においてアラビア語の ERRANT が Automatic Error Type Annotation for Arabic [Belkebir and Habash, 2021] にて公開されています。
以下、アラビア語の GEC の関連研究です。
- Large Scale Arabic Error Annotation: Guidelines and Framework [Zaghouani et al., 2014]:QALB についての論文。
- The First QALB Shared Task on Automatic Text Correction for Arabic [Mohit et al., 2014]:QALB を用いた最初の shared task の論文。
- The Second QALB Shared Task on Automatic Text Correction for Arabic [Rozovskaya et al., 2015]:第2回の shared task の論文。
- An evaluation of the Arabic error tagset v2 [Alfaifi and Atwell, 2014]:ALC を公開した論文。
- Automatic Error Type Annotation for Arabic [Belkebir and Habash, 2021]:アラビア語の ERRANT を公開した論文。
まとめ
本記事では、英語・日本語・中国語以外の言語 (ロシア語・チェコ語・ウクライナ語・ドイツ語・スペイン語・ルーマニア語・ギリシャ語・ヒンディー語・アラビア語) の GEC についてデータセットや研究の紹介を行ってきました。今回紹介したもの以外にも学習者データは存在しており、本来であればそれらの紹介も行いたいところではあるのですが、今回は文量や時間の関係でここまでとなります。
最後に、今回紹介した言語 + 英語について簡単に表にまとめてこの記事は終わりにしようかと思います。かなり長い記事になってしまいましたが、最後まで読んでいただきありがとうございました。
言語 | データセット | 誤り率 (%) | F0.5 |
---|---|---|---|
英語 | CoNLL 2014 [Ng et al., 2014] | - | 68.87 [Rothe et al., 2021] |
英語 | W&I+LOCNESS [Bryant et al., 2018] | 11.8 | 76.05 [Tarnavskyi and Omelianchuk, 2021] |
ロシア語 | RULEC-GEC [Rozovskaya and Roth, 2019] | 6.3 | 51.62 [Rothe et al., 2021] |
チェコ語 | AKCES-GEC [Náplava and Straka, 2019] | 21.4 | 83.15 [Rothe et al., 2021] |
ウクライナ語 | UA-GEC [Syvokon and Nahorna, 2021] | 7.1 | - |
ドイツ語 | Falko-MERLIN [Boyd, 2018] | 16.8 | 75.96 [Rothe et al., 2021] |
スペイン語 | COWS-L2H [Davidson et al., 2020] | - | 57.32 [Flachs et al., 2021] |
ルーマニア語 | RONACC [Cotet et al., 2020] | - | 53.76 [Cotet et al., 2020] |
ギリシャ語 | GLC [Tantos and Papadopoulou, 2018] | - | - |
ヒンディー語 | HiWikiEd [Sonawane et al., 2020] | 6.7 | 約 49 [Sonawane et al., 2020] |
アラビア語 | QALB [Zaghouani et al., 2014] | - | 41.20 [Rozovskaya et al., 2015] |
余談
各国内の学会のみで発表されているものなど、今回の記事では紹介しきれなかった言語やデータセットについて、気になる方は以下の二つを見てもらうとよいかなと思います。
- Evaluating and automating the annotation of a learner corpus [Rosen et al., 2014]:2014年以前の学習者コーパスについてまとまっている論文。
- Learner corpora around the world:漏れもありますが、各言語の学習者コーパスについてまとめたサイトです。
Reference
Alla Rozovskaya and Dan Roth. "Grammar Error Correction in Morphologically Rich Languages: The Case of Russian." TACL. 2019
Rothe et al. "A Simple Recipe for Multilingual Grammatical Error Correction." ACL-IJCNLP. 2021
Viet Anh Trinh and Alla Rozovskaya. "New Dataset and Strong Baselines for the Grammatical Error Correction of Russian." ACL-IJCNLP Findings. 2021
Jakub Náplava and Milan Straka. "Grammatical Error Correction in Low-Resource Scenarios." W-NUT. 2019
Satoru Katsumata and Mamoru Komachi. "Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model." AACL. 2020
Milan Straka, Jakub Náplava and Jana Straková. "Character Transformations for Non-Autoregressive GEC Tagging." W-NUT. 2021
Oleksiy Syvokon and Olena Nahorna. "UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language." arXiv. 2021
Adriane Boyd. "Using Wikipedia Edits in Low Resource Grammatical Error Correction." W-NUT. 2018
Sam Davidson, Aaron Yamada, Paloma Fernandez Mira, Agustina Carando, Claudia H. Sanchez Gutierrez and Kenji Sagae. "Developing NLP Tools with a New Corpus of Learner Spanish." LREC. 2020
Simon Flachs, Felix Stahlberg and Shankar Kumar. "Data Strategies for Low-Resource Grammatical Error Correction." BEA. 2021
Yamada, A., Davidson, S., Fernández-Mira, P., Carando, A., Sagae, K., & Sánchez-Gutiérrez, C. "COWS-L2H: A corpus of Spanish learner writing." RiCL. 2020
Salvador Lima López, Naiara Perez and Montse Cuadros. "Grammatical error correction for Spanish health records." SEPLN. 2021
Teodor-Mihai Cotet, Stefan Ruseti and Mihai Dascalu. "Neural Grammatical Error Correction for Romanian." IEEE. 2020
Anda-Madalina Florea, Mihai Dascalu, Maria-Dorinela Sirbu and Stefan Trausan-Matu. "Improving Writing for Romanian Language" ASLERD. 2019
Alexandros Tantos and Despina Papadopoulou. "Stand-off annotation in learner corpora: compiling the Greek Learner Corpus (GLC)." Specialisation and Variation in Language Corpora. 2018
Katerina Korre, Marita Chatzipanagiotou and John Pavlopoulos. "ELERRANT: Automatic Grammatical Error Type Classification for Greek." RANLP. 2021
Ankur Sonawane, Sujeet Kumar Vishwakarma, Bhavana Srivastava and Anil Kumar Singh. "Generating Inflectional Errors for Grammatical Error Correction in Hindi." AACL-SRW. 2020
Amita Jain and Minni Jain. "Detection and correction of non word spelling errors in Hindi language." IEEE. 2014
Wajdi Zaghouani, Behrang Mohit, Nizar Habash, Ossama Obeid, Nadi Tomeh, Alla Rozovskaya, Noura Farra, Sarah Alkuhlani and Kemal Oflazer. "Large Scale Arabic Error Annotation: Guidelines and Framework." LREC. 2014
Alfaifi, A and Atwell, ES. "An evaluation of the Arabic error tagset v2." The American Association for Corpus Linguistics conference. 2014
Riadh Belkebir and Nizar Habash. "Automatic Error Type Annotation for Arabic." CoNLL. 2021
Behrang Mohit, Alla Rozovskaya, Nizar Habash, Wajdi Zaghouani and Ossama Obeid. "The First QALB Shared Task on Automatic Text Correction for Arabic." WANLP. 2014
Alla Rozovskaya, Houda Bouamor, Nizar Habash, Wajdi Zaghouani, Ossama Obeid and Behrang Mohit. "The Second QALB Shared Task on Automatic Text Correction for Arabic." WANLP. 2015