CoLA ってなんぞ?
CoLA とは The Corpus of Linguistic Acceptability の略で、簡潔に言えば、文章の自然さ を評価するためのタスクです。
最近話題の BERT もこのタスクに取り組んでおり、2018年11月でSOTAの地位を手に入れています。
このタスクの特徴は?
このタスクは 自然さ を評価するという機械にはかなり難しいタスクであり、もっと言えば人間にも難しいタスクであると言えるでしょう。
具体的なデータは?
データは 0/1 の 2値なラベル付けされた文章の集合となっています。(正確には引用元やラベル付の方法などの情報が含まれていますが、簡単のため今回は説明を省きます。)
0 は自然な文章でないことを示しています。
1 は自然なそれであることを示しています。
以下が具体例になります。
1 猫です、よろしくお願いします。
0 願いです、よろしく猫します。
1 パトラッシュ、僕はもう疲れたよ。
1 にゃーん
また実際にCoLAに含まれるテキストを以下に紹介します。
gj04 1 The professor talked us into a stupor. (教授は我々に愚痴った。)
gj04 0 * The professor talked us. (教授は我々に話した。)
gj04 1 We yelled ourselves hoarse. (我々は叫んだ。)
どう活用できる?
例えば Transformer(Attention is All You Need) や Seq2Seq から出力される文章が自然な文章であるかを評価して、自然でない文章をエラーとしてハンドルすることができるかもしれません。(例えば不自然ならば、「上手く答えられません」と言うなど)
参考文献
BERT https://arxiv.org/abs/1810.04805
CoLA https://nyu-mll.github.io/CoLA/
Neural Network Acceptability Judgments https://arxiv.org/abs/1805.12471
他ページヘのリンク
NLPのタスクを紹介するだけの簡単なページ(0)
[NLPのタスクを紹介するだけの簡単なページ(1) ~SQuAD編~]
(https://qiita.com/MeguruMokke/items/962a76a3b6c9e4c99315)
NLPのタスクを紹介するだけの簡単なページ(2) ~CoLA編~
NLPのタスクを紹介するだけの簡単なページ(3) ~QQP編~
NLPのタスクを紹介するだけの簡単なページ(4) ~STS編~
[NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~]
(https://qiita.com/MeguruMokke/items/962a76a3b6c9e4c99315)