Help us understand the problem. What is going on with this article?

NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~

More than 1 year has passed since last update.

MRPC ってなんぞ?

 MRPC とは Microsoft Research Paraphrase Corpus の略で、簡潔に言えば 文章の等価性を 評価するためのタスクです。

 最近話題の BERT もこのタスクに取り組んでおり、2018年11月でSOTAの地位を手にしています。

このタスクの特徴は?

 QQP にも似ている気がしますが、ここで主に議論しているのは Web上のニュースで使われていた文章です。また STS とは違って 0/1 の2値を取ります。

具体的なデータは?

 データは 文章1文章2 とそれらが意味的に等しいかを示す 2値ラベル があります。
 
 具体例を以下に示します。

文章1
田中くんは昨日国際会議で発表をした。
文章2
昨日国際会議でスピーチをしたのは田中くんでした。
ラベル
1 (一致している。)

 実際のMRPCに含まれるデータを紹介します。

文章1
The spokeswoman said four soldiers were wounded in the attack, 
which took place just before noon around %%NUMBER%% km 
( %%NUMBER%% miles ) north of the capital Baghdad.

(その広報担当者は、正午過ぎに 首都バグダット北部の %%NUMBER%% キロマイル 付近で、4人の兵士が負傷したと述べた。)
文章2
Two US soldiers were killed in a mortar attack 
near the Iraqi town of Samarra yesterday, 
a US military spokeswoman said.

(米軍の広報担当者は、昨日イラクのサマラ周辺の迫撃砲による攻撃によって二人の兵士が殺されたと報じた。)
ラベル
0 (意味的に等価ではない。)

どう活用できる?

 日本では例えばライブドアニュースの抽出処理なんかを行う際に使えそうですね。結構先例もありそうなので是非ともここで高いスコアが出ているアルゴリズムを用いて挑戦してみて下さい。

参考文献

Microsoft Research Paraphrase Corpus https://www.microsoft.com/en-us/download/details.aspx?id=52398

他ページヘのリンク

NLPのタスクを紹介するだけの簡単なページ(0)
NLPのタスクを紹介するだけの簡単なページ(1) ~SQuAD編~
NLPのタスクを紹介するだけの簡単なページ(2) ~CoLA編~
NLPのタスクを紹介するだけの簡単なページ(3) ~QQP編~
NLPのタスクを紹介するだけの簡単なページ(4) ~STS編~
NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした