QQP ってなんぞ?
QQP とは The Quora Question Pairs の略で、簡潔に言えば 質問文の等価性 を評価するためのタスクです。
最近話題の BERT もこのタスクに取り組んでおり、2018年11月でSOTAの地位を手にしています。
このタスクの特徴は?
このタスクは 2つの文章の関係 を評価するタスクの中でも 質問文 にターゲットを絞ったタスクになっています。
つまり平叙文を2つ用意してこれが等価ですか?という問題は扱っていません。
具体的なデータは?
データは、質問文1 と 質問文2 とそれらが等価であるかを示す 2値ラベル (0 は等しくない・1 は等しい) をがあります。
具体例を以下に示します。
あなたの名前を教えてもらえませんか?
あんた誰?
1 (等価である)
実際のQQPに含まれるデータを紹介します。
How can increase the speed of my internet connection while using a VPN?
(VPN使っているんだけど、ネット回線をどうにか早くできない?)
How can Internet speed be increased by hacking through DNS?
(DNSハックしてネット回線早くしたいんだけどどうすれば良い?)
0 (等価ではない)
どう活用できる?
このタスクをちらっと見たとき、割と粗い精度で等価判定を行うと思っていたんですが、結構シビアなラインで判定するみたいですね。
ただこのシビアな問題を解くことに注力しているため、大雑把な違いにどう反応するのかはちょっとわからないです。
(そのためあまり良い活用先であるかは疑問ですが、例えば厳密に一致する質問文だけを拾いたいシステムで用いることが考えられます。
例えば某Virtual AIを自作するとして、「あなたの名前はなんですか?」という質問群に「私はキ◯ナ・◯◯です。」という受け答えをすることなどが考えられます。なぜこのタスクを適用するべきかというと、「XXXの名前はなんですか?」という質問や「あなたのあだ名はなんですか?」という質問には別の受け答えをしてほしいからです。)
参考文献
Kaggle-Quora-Question-Pairs https://github.com/howardyclo/Kaggle-Quora-Question-Pairs
First Quora Dataset Release: Question Pairs https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
Quora Question Pairs https://www.kaggle.com/c/quora-question-pairs
BERT https://arxiv.org/abs/1810.04805
他ページヘのリンク
NLPのタスクを紹介するだけの簡単なページ(0)
[NLPのタスクを紹介するだけの簡単なページ(1) ~SQuAD編~]
(https://qiita.com/MeguruMokke/items/44720220d4fe9de3f804)
NLPのタスクを紹介するだけの簡単なページ(2) ~CoLA編~
NLPのタスクを紹介するだけの簡単なページ(3) ~QQP編~
NLPのタスクを紹介するだけの簡単なページ(4) ~STS編~
[NLPのタスクを紹介するだけの簡単なページ(5) ~MRPC編~]
(https://qiita.com/MeguruMokke/items/962a76a3b6c9e4c99315)