2018年3月付で、arXivに下記の論文が発表されていました。
Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge
ARCは、英語で記述された、テキストオンリーの質問応答(Question Answering)のためのデータセットのようです。
これまで、質問応答のための質問データセットといえば、下記のようなものがありました。(参考:GitHub arXivTimes/datasets/)
- 英語
- 日本語
- NTCIR QA Lab PoliInfo (2018年タスク実施予定)
- NTCIR QAC
- NIILC Question Answering Dataset
本記事では、上記論文及び公式サイトをもとに、データセットの情報を記述していきます。基本的にはただの翻訳…。随時更新していくかも。
ARC Questions
本データセットは、様々なソースから抽出された全7787件の科学分野の質問から構成されています。これには、AI2の研究パートナーよりライセンスを受けた質問も含まれています。図形を使わないテキストオンリーの質問で、英語で記述されており、いくつかの学年レベルにまたがって出題されています。各質問には、正解を選ぶ選択肢が存在します(通常は4択です)。データセットは、検索や単語共起に基づく手法では答えることのできない2590件の難しい質問を集めたチャレンジセットと、5197件のイージーセットに分類されています。具体的には、下記表のように分類されます。
チャレンジセット | イージーセット | 合計 | |
---|---|---|---|
学習用データ | 1119 | 2251 | 3370 |
評価用データ | 299 | 570 | 869 |
テストデータ | 1172 | 2376 | 3548 |
合計 | 2590 | 5197 | 7787 |
データセットに関するディスカッションに参加するには、ARCディスカッショングループをご覧ください。
注意:本データは、Allen Institute of Artificial Intelligence (AI2)以外では配布しないでください。データセットに興味がある方は、全員、AI2からダウンロードしてください。データセットは、非営利の研究目的でのみ使用することができます。
チャレンジセットとイージーセットの違い
以下の2つのソルバーを用意して、どちらのソルバーでも誤答してしまった質問が、チャレンジセットに振り分けられています。どちらも、Clark et al. (2016)で述べられているソルバーです。
- Information Retrieval (IR) Solver - 情報検索に基づくソルバー
- The Pointwise Mutual Information (PMI) Solver
Information Retrieval (IR) Solver
コーパスとして、ClarkらのWaterlooコーパス($5 \times 10^{10}$トークン)を用意しておきます。
検索エンジン1に対して、質問$q$と、$i$番目の選択肢$a_i$をクエリとして入力すると、コーパス上で検索が行われ、最も関連の高いセンテンス$s$の関連度のスコアが返されます。なお、$s$には、$q$内の少なくとも1つの単語(ストップワードを除く)と、$a_i$が含まれています。
同じ質問で、上記の処理を選択肢の分だけ繰り返し、もっともスコアの良かったものを回答とみなすソルバーです。
データフォーマット
各セットは、CSVとJSONの2つの形式で提供されます。CSV形式のファイルには、質問の全文と、回答の選択肢が、1つのセルに含まれています。JSON形式のファイルには、質問文と回答を分けて格納しています。
JSONの構造
JSONファイルには、stem(質問文)と、A~Dのラベルに該当する様々なchoices(選択肢)が含まれています。questionIDも、併せて振られています。
{
"id":"MCAS_2000_4_6",
"question":{
"stem":"Which technology was developed most recently?",
"choices":[
{"text":"cellular telephone","label":"A"},
{"text":"television","label":"B"},
{"text":"refrigerator","label":"C"},
{"text":"airplane","label":"D"}
]
},
"answerKey":"A"
}
-
id
- 質問固有の識別子 -
question
-
stem
- 質問文 -
choices
- 回答の選択肢-
label
- 回答ラベル(A
,B
,C
,D
) -
text
- 回答ラベルに関連付けられたテキスト
-
-
-
answerKey
- 正解の選択肢
CSVの構造
questionID,originalQuestionID,totalPossiblePoint,AnswerKey,isMultipleChoiceQuestion,includesDiagram,examName,schoolGrade,year,question,subject,category
MCAS_2000_4_6,6,1,A,1,0,MCAS,4,2000,Which technology was developed most recently? (A) cellular telephone (B) television (C) refrigerator (D) airplane,,Dev
以下のカラムが存在します。
-
questionID
- 質問固有の識別子 -
originalQuestionID
- テストの質問番号 -
totalPossiblePoint
- 採点する場合の配点 -
AnswerKey
- 正解の選択肢 -
isMultipleChoiceQuestion
- 多肢選択問題かどうか1
=多肢選択問題0
=その他 -
includesDiagram
- 図を含むかどうか1
=図を含む0
=その他 -
examName
- ソースとなったテストの名前 -
schoolGrade
- 学年レベル -
year
- テストの発行年 -
question
- 質問と選択肢が1つになったテキスト -
subject
- 一般的な質問トピック -
category
-Test
、Train
、またはDev
ベースライン
配布元より公式で、3種類のベースライン(ニューラルベース)が提供されています。
- DecompAttn, based on the Decomposable Attention model - Parikh et al. (2016)
- BiDAF, based on the Bidirectional Attention Flow model - Seo et al. (2017)
- DGEM, based on the Decomposable Graph Entailment Model - Khot et al. (2018)
それぞれのモデルの、ARC(テストデータ)に対する正答率は以下の通りです。
モデル名 | チャレンジセット(%) | イージーセット(%) |
---|---|---|
DGEM | 27.11 | 58.97 |
BiDAF | 26.54 | 50.11 |
DecompAttn | 24.34 | 58.27 |
もし、自身で開発されたモデルを評価する際には、次の点に注意してください。モデルが、質問に対して、正解を含む複数個($k$個)の回答を解答をした場合、その質問のスコアは$1/k$としてください。
-
検索エンジンには、Elasticsearchを使用 ↩