LoginSignup
11
5

More than 5 years have passed since last update.

NLPのタスクを紹介するだけの簡単なページ(2) ~CoLA編~

Last updated at Posted at 2018-11-12

CoLA ってなんぞ?

 CoLA とは The Corpus of Linguistic Acceptability の略で、簡潔に言えば、文章の自然さ を評価するためのタスクです。

 最近話題の BERT もこのタスクに取り組んでおり、2018年11月でSOTAの地位を手に入れています。

このタスクの特徴は?

 このタスクは 自然さ を評価するという機械にはかなり難しいタスクであり、もっと言えば人間にも難しいタスクであると言えるでしょう。
 

具体的なデータは?

 データは 0/1 の 2値なラベル付けされた文章の集合となっています。(正確には引用元やラベル付の方法などの情報が含まれていますが、簡単のため今回は説明を省きます。)
 
 0 は自然な文章でないことを示しています。
 1 は自然なそれであることを示しています。

 以下が具体例になります。

具体例
1    猫です、よろしくお願いします。
0    願いです、よろしく猫します。
1    パトラッシュ、僕はもう疲れたよ。
1    にゃーん

 
 また実際にCoLAに含まれるテキストを以下に紹介します。

実際の例
gj04    1       The professor talked us into a stupor. (教授は我々に愚痴った。)
gj04    0   *   The professor talked us. (教授は我々に話した。)
gj04    1       We yelled ourselves hoarse. (我々は叫んだ。)

どう活用できる?

 例えば Transformer(Attention is All You Need) や Seq2Seq から出力される文章が自然な文章であるかを評価して、自然でない文章をエラーとしてハンドルすることができるかもしれません。(例えば不自然ならば、「上手く答えられません」と言うなど)

参考文献

BERT https://arxiv.org/abs/1810.04805
CoLA https://nyu-mll.github.io/CoLA/
Neural Network Acceptability Judgments https://arxiv.org/abs/1805.12471

他ページヘのリンク

NLPのタスクを紹介するだけの簡単なページ(0)
NLPのタスクを紹介するだけの簡単なページ(1) ~SQuAD編~
NLPのタスクを紹介するだけの簡単なページ(2) ~CoLA編~
NLPのタスクを紹介するだけの簡単なページ(3) ~QQP編~
NLPのタスクを紹介するだけの簡単なページ(4) ~STS編~
NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~

11
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
11
5