文法誤り訂正(Grrammtical Error Correction: GEC)は専門外だったので特段何も気にしてなかったけれど。学生の原稿チェックしてたら、
文法誤り訂正とは、学習者が書いた文に含まれる誤りを訂正するタスクである。
という1文で始まる原稿ばかりで、「いやちょっと待て」ってなったので。
とりあえず、
- そもそもそれ、やってること本当に「文法」誤り訂正なの??? なんかもう「文法」の枠超えていない???
- なんでこんなド最初の分野解説から「入力は『文』」って言い切るの???
と、ツッコミ入れたら、研究会中にいい議論できたのでメモ。
先に結論を書いておくと、上の1文は ↓ を圧縮した表現だと判明。
自然言語処理の分野において、文法誤り訂正は一般的に、計算機が非母語話者が書いた文を入力として受け取り、その文に含まれる文法誤りを訂正し、出力するタスクとみなされている。何を文法誤りとするかは分野や立場により一貫しないため、自然言語処理の分野では基本的に、コーパスのアノテーションの定義に従う。また文単位の処理であるのは、アノテーションされた文法誤りを計算機が自動訂正する上で、文内の情報を超えて文外の情報を参照しないといけない状況がほとんど存在しないためである。
この定義 ↑ を、圧縮して1文で書いたのが最初に示したもの。
うん。たしかにそうなる。そうなるけど。めっちゃ内輪ネタじゃん......
「形態素解析とは、文を単語に分割して品詞を付与するタスクである」を国際会議に持っていけないくらい内輪ネタじゃん......
でまあ、横でサーベイしてるのを見てたから、↓ 読み直しに行ったら、
あらためて説明する必要はないかもしれないが、念のため最初に文法誤り訂正のタスクについて説明しておく。
一般的な文法誤り訂正では、非母語話者が書く文を入力として受け取り、その文に含まれる誤りを訂正した文を出力する。
って、こっちでもド最初に書いてあるし。なんなら引用元 ↓ のp.60あたりの定義読みにいっても、
こっちでも文法誤り訂正の入力は「文」って言い切ってるし。1
で、こういう時はなるべく原点回帰の気持ちで、いそいそ田中本を取り出すのだけど。
ここでは7章「文書処理」に登場しているので、入力は文ではないし。誤りもtypoのような入力誤り(slip)と、母語などの書き手の知識に起因する認知誤り(mistake)があって。認知誤りの下に、語形成、文法、運用、実世界との対応 があるので、少なくとも90年代は最初に出した1文のような認識ではなかったことが判明。
個人的に「文法」って言われたら統語論とか生成文法とか、そこら辺のイメージで、田中本と一致。
で、頭抱えて今度は言語処理学事典のp.622「文法性(Grammticality)」読みにいく。
ここでやっと納得できたのは、Grammatical かどうかって、非文かどうか(文法の本とか読んでて「*」や「?」が頭に付くやつ)の判断だと判明。
なら、英語でGrammatical Error Correctionで定着してるのも納得。
要は読んだときに自分が首かしげるかどうかなので。
英語ネイティブからしたら、Grammatical Errorとして扱ってる範囲、結構裾野広くてもいい、と。
またここでも文法性は、音韻論、形態論、統語論、意味論の4分野で解説されていて。統語的文法性は狭義であるとも解説されてて納得。
で、ここら辺の背景持って議論した末、やっと最初に上げていた1文、実はその下に書いた長い説明をギュッと圧縮したものだとコンセンサス取れて、マジかよ......となった次第。
GEC分野にいたらなんとなくわかってるんだろうけど。客観から見たら、いやいやいや、君たちなんでこぞってこの文から書き出してるの!? ってなるんだけど。
原稿に書ける量も限られてるし......藪蛇チックなほぼ裏話だし......
しょうがない、と片すこともできるけど。
お願いだから、誰でもいいから、ジャーナルか書籍で、このお気持ちちゃんと書いて引用されるようになってくださいの思いで、初めてQiita記事書いてみた。
あと、意味わからずの丸のみコピペ、やめて。
自分が何やってるのかくらい、ちゃんと批判的に見て、疑問に思ったら調べて。最近の原稿読んでも書いてないからって、そこでそういうものなんだっていう丸のみ思考放棄はしないでほしい。
-
p.60 周りしか見ていなかったが、ここで言及されているのは「訳文を対象とした文法誤り訂正」なので、入力は文単位。ただし「言語処理における文法誤り訂正」は、訳文を対象とする場合と、自由記述文章を対象とする場合の2種類に大別できるとあり、後者は入力を文書単位に設定しているため「言い切って」はいない。(2021/12/08 訂正)
(え? マジでそんな局所的にタスク定義しちゃうの???)
ってなるワリに、「文法誤り」が何から何までの範囲を指すのか、その明確な定義もないし...... ↩