MRPC ってなんぞ?
MRPC とは Microsoft Research Paraphrase Corpus の略で、簡潔に言えば 文章の等価性を 評価するためのタスクです。
最近話題の BERT もこのタスクに取り組んでおり、2018年11月でSOTAの地位を手にしています。
このタスクの特徴は?
QQP にも似ている気がしますが、ここで主に議論しているのは Web上のニュースで使われていた文章です。また STS とは違って 0/1 の2値を取ります。
具体的なデータは?
データは 文章1 と 文章2 とそれらが意味的に等しいかを示す 2値ラベル があります。
具体例を以下に示します。
田中くんは昨日国際会議で発表をした。
昨日国際会議でスピーチをしたのは田中くんでした。
1 (一致している。)
実際のMRPCに含まれるデータを紹介します。
The spokeswoman said four soldiers were wounded in the attack,
which took place just before noon around %%NUMBER%% km
( %%NUMBER%% miles ) north of the capital Baghdad.
(その広報担当者は、正午過ぎに 首都バグダット北部の %%NUMBER%% キロマイル 付近で、4人の兵士が負傷したと述べた。)
Two US soldiers were killed in a mortar attack
near the Iraqi town of Samarra yesterday,
a US military spokeswoman said.
(米軍の広報担当者は、昨日イラクのサマラ周辺の迫撃砲による攻撃によって二人の兵士が殺されたと報じた。)
0 (意味的に等価ではない。)
どう活用できる?
日本では例えばライブドアニュースの抽出処理なんかを行う際に使えそうですね。結構先例もありそうなので是非ともここで高いスコアが出ているアルゴリズムを用いて挑戦してみて下さい。
参考文献
Microsoft Research Paraphrase Corpus https://www.microsoft.com/en-us/download/details.aspx?id=52398
他ページヘのリンク
NLPのタスクを紹介するだけの簡単なページ(0)
[NLPのタスクを紹介するだけの簡単なページ(1) ~SQuAD編~]
(https://qiita.com/MeguruMokke/items/44720220d4fe9de3f804)
NLPのタスクを紹介するだけの簡単なページ(2) ~CoLA編~
NLPのタスクを紹介するだけの簡単なページ(3) ~QQP編~
NLPのタスクを紹介するだけの簡単なページ(4) ~STS編~
[NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~]
(https://qiita.com/MeguruMokke/items/962a76a3b6c9e4c99315)