14
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~

Last updated at Posted at 2018-11-12

MRPC ってなんぞ?

 MRPC とは Microsoft Research Paraphrase Corpus の略で、簡潔に言えば 文章の等価性を 評価するためのタスクです。

 最近話題の BERT もこのタスクに取り組んでおり、2018年11月でSOTAの地位を手にしています。

このタスクの特徴は?

 QQP にも似ている気がしますが、ここで主に議論しているのは Web上のニュースで使われていた文章です。また STS とは違って 0/1 の2値を取ります。

具体的なデータは?

 データは 文章1文章2 とそれらが意味的に等しいかを示す 2値ラベル があります。
 
 具体例を以下に示します。

文章1
田中くんは昨日国際会議で発表をした。
文章2
昨日国際会議でスピーチをしたのは田中くんでした。
ラベル
1 (一致している。)

 実際のMRPCに含まれるデータを紹介します。

文章1
The spokeswoman said four soldiers were wounded in the attack, 
which took place just before noon around %%NUMBER%% km 
( %%NUMBER%% miles ) north of the capital Baghdad.

(その広報担当者は、正午過ぎに 首都バグダット北部の %%NUMBER%% キロマイル 付近で、4人の兵士が負傷したと述べた。)
文章2
Two US soldiers were killed in a mortar attack 
near the Iraqi town of Samarra yesterday, 
a US military spokeswoman said.

(米軍の広報担当者は、昨日イラクのサマラ周辺の迫撃砲による攻撃によって二人の兵士が殺されたと報じた。)
ラベル
0 (意味的に等価ではない。)

どう活用できる?

 日本では例えばライブドアニュースの抽出処理なんかを行う際に使えそうですね。結構先例もありそうなので是非ともここで高いスコアが出ているアルゴリズムを用いて挑戦してみて下さい。

参考文献

Microsoft Research Paraphrase Corpus https://www.microsoft.com/en-us/download/details.aspx?id=52398

他ページヘのリンク

NLPのタスクを紹介するだけの簡単なページ(0)
[NLPのタスクを紹介するだけの簡単なページ(1) ~SQuAD編~]
(https://qiita.com/MeguruMokke/items/44720220d4fe9de3f804)
NLPのタスクを紹介するだけの簡単なページ(2) ~CoLA編~
NLPのタスクを紹介するだけの簡単なページ(3) ~QQP編~
NLPのタスクを紹介するだけの簡単なページ(4) ~STS編~
[NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~]
(https://qiita.com/MeguruMokke/items/962a76a3b6c9e4c99315)

14
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
14
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?