自然言語処理分野の推論・含意関係認識タスクにおける主要なデータセットのまとめ #NLP

はじめに

自然言語処理分野の推論・含意関係認識タスクに関するデータセットについて、まとめていこうと思います。研究や開発をしている際に、使えるデータがないかをデータセットの名前をなんとなく思い出しながら、Google 検索で調べて、タスク内容やデータ傾向、形式をいちいち確認するということを何度もやってしまっているので、技術的記事ではないですが、自分のためにもまとめてみます。

自然言語処理分野での推論タスクは、決まったドメインでの推論、雑談などでの常識の推論など多岐にわたり、様々な切り口のタスクがありますが、今回は主に含意関係認識タスクのデータセットについて主要（私の独断と偏見あり）なものについてまとめます。

含意関係認識タスクとはなにか

含意関係認識という言葉を耳にする人は少ないのではないかと思うので、タスクの説明から入ります。含意関係認識というタスクは読んで字の如く、意味が含まれている関係かどうかを判断するタスクです。自然言語処理分野において含意関係というのは、2つの文があるうち前提となる文T（Text）が真である場合に、仮説の文H（Hypothesis）がTから真であると推論される関係を意味します。以下は自然言語処理分野で頻繁に挙げられる含意関係が成り立つ例です。

T: 川端康成は「雪国」などの作品でノーベル文学賞を受賞した。
H: 川端康成は「雪国」の作者である。

含意関係認識タスクのデータセットの基本

基本的に含意関係認識タスクのデータセットには、前提文、仮説文、ラベルの3カラムは必ず含まれています。また、付与されているラベルは、含意関係あり/含意関係なし/関係のないものの3値であることが多いです。（その他のラベルのものももちろんあります。）
以下では日本語データセットと英語データセットでそれぞれまとめていきます。
※含意関係認識タスクのデータセットのほんの一部の紹介になります。

日本語のデータセット

RITE-VAL

RITE-VALで実施された含意関係認識タスクです。NTCIR （エンティサイル、NII Testbeds and Community for Information access Research）というプロジェクトは、

情報検索・質問応答・要約・テキストマイニング・機械翻訳などの分野で共通基盤の上でそれぞれの研究を進め、検証、比較評価し、相互に学びあうフォーラムを形成するプロジェクト

です。日本国内のプロジェクトで、1年半毎にカンファレンスやワークショップが開かれています。
残念ながら RITE と名のつく含意関係認識タスクは NTCIR-11 （2014年）を最後になくなってしまいましたが、NTCIR 自体は毎回面白いタスクが多く実施されているので気になる方はぜひ覗いて参加してみてください（投稿現在は NTCIR-15 の参加登録受付中です）。

少し脱線してしまいましたが、RITE-VALデータセットの詳細です。

データセット詳細
- 利用方法：申請ページからが登録と申請書と同意書署名などが必要
- サイズ：1,000ペア
- 形式：前提文、仮説文、2値ラベル
  - ラベル：Y（含意あり）、N（含意なし）

データセットの具体例

前提文	仮説文	ラベル
川端康成は「雪国」などの作品でノーベル文学賞を受賞した。	川端康成は「雪国」の作者である。	Y
プロメテウスは人類に火を渡し、磔にされた。	人間はプロメテウスから火を渡された。	Y
中央アジアで作られる馬乳酒は、少量のアルコールを含んだ飲むヨーグルトといえる。	飲むヨーグルトは、酒の一種だ。	N

Textual Entailment 評価データ

Textual Entailment 評価データは京都大学の黒橋・河原研究室で作成された、短文の含意関係認識評価データセットです。

データセット詳細
- 利用方法：Textual Entailment 評価データからダウンロード可能
- サイズ：約2700ペア
- 形式：ID、カテゴリ：サブカテゴリ、推論判定、前提文、仮説文
  - カテゴリ内訳：包含、語彙（体言）、語彙（用言）、構文、推論
  - 推論判定内訳：◎、◯、△、×

Textual Entailment 評価データは、RITEのデータセットと比べると簡単な短文によって構成されてたデータセットになっています。RITEデータセットと形式をあわせたバージョンのデータセットもあります。

データセットの具体例

ID	カテゴリ：サブカテゴリ	推論判定	前提文	仮説文
0	語彙(体言):下位→上位	×	もみじ狩りに行った。	狩りをした。
1	語彙(体言):下位→上位	×	ジョンは怠慢で、ビルは勤勉だ。	犬は怠慢で、人は勤勉だ。
15	語彙(体言):下位→上位	◎	あの人は呼吸器専門医だ。	あの人は医者だ。
42	語彙(体言):下位→上位	△	桜の季節になった。	花の季節になった。
44	語彙(体言):下位→上位	○	カツオは海の生き物である。	魚は海の生き物である。

英語データセット

SNLI

SNLI（Standord Natural Language Inference）は、前提文と仮説文の2文からなるペアと対応するラベルが人手で付与されているデータセットです。

データセット詳細
- 利用方法：https://nlp.stanford.edu/projects/snli/ からダウンロード可能
- サイズ：57万ペア
  - 内訳：訓練データ55万、開発データ1万、テストデータ1万
- 形式：前提文、3値ラベル(5人のラベル)、仮説文
  - ラベル：entailment, contradiction, neutral

データセットの具体例

Text	Judgments	Hypothesis
A man inspects the uniform of a figure in some East Asian country.	contradiction (C C C C C)	The man is sleeping
An older and younger man smiling.	neutral (N N E N N)	Two men are smiling and laughing at the cats playing on the floor.
A black race car starts up in front of a crowd of people.	contradiction (C C C C C)	A man is driving down a lonely road.
A soccer game with multiple males playing.	entailment (E E E E E)	Some men are playing a sport.
A smiling costumed woman is holding an umbrella.	neutral (N N E C N)	A happy woman in a fairy costume holds an umbrella.

MultiNLI

上記のSNLIを、多様なジャンルの話題に拡張したデータセットです。話し言葉や書き言葉といった違いのあるジャンルも含まれます。

データセット詳細
- 利用方法：https://www.nyu.edu/projects/bowman/multinli/ からダウンロード可能
- サイズ：訳43万ペア
- 形式：前提文、3値ラベル、仮説文
  - ラベル：entailment, contradiction, neutral

データセットの具体例

Premise	Label	Hypothesis
Fiction
The Old One always comforted Ca'daan, except today.	neutral	Ca'daan knew the Old One very well.
Letters
Your gift is appreciated by each and every student who will benefit from your generosity.	neutral	Hundreds of students will benefit from your generosity.
Telephone Speech
yes now you know if if everybody like in August when everybody's on vacation or something we can dress a little more casual or	contradiction	August is a black out month for vacations in the company.
9/11 Report
At the other end of Pennsylvania Avenue, people began to line up for a White House tour.	entailment	People formed a line at the end of Pennsylvania Avenue.

その他推論関係タスクのデータセット

含意関係認識タスクに近いの推論関係のデータセットを1つ紹介します。

SICK

SICK（Sentences Involving Compositional Knowledge）は、与えられた2つの文の意味的類似度を予測するタスクのためのデータセットです。人手で1.0〜5.0（大きい数値ほど類似度が高い）のスコアが付与されています。

データセット詳細
- 利用方法：
- サイズ：9927ペア
  - 訓練データ 4500ペア、開発データ 500ペア、テストデータ 4927ペア
- 形式：文A、文B、類似度スコア(1.0〜5.0)

データセットの具体例

文A	文B	類似度スコア
A wild deer is jumping a fence.	A deer is jumping over a fence	4.5
A woman is scrubbing a zucchini with a vegetable brush.	A woman is eating zucchini and vegetables and scrubbing with a brush.	3.2
Two people are carrying colorful baskets and blankets and walking near a building.	Two people are sitting with laden baskets and blankets.	2.8
A man is jumping into an empty pool.	There is no biker jumping in the air.	1.2

おわりに

自然言語処理分野の含意関係認識・推論タスクにおけるデータセット5つについてまとめました。

個人的な雑念

個人の感想になりますが、日本語の含意関係認識関連のデータセットは現状では英語のようにサイズの大きいものがなく、深層学習を用いた手法を試すことには向いていません。加えて含意関係認識タスク自体もここ数年ではあまり取り組まれなくなってきており、含意関係認識という基礎的タスクより、より複雑で応用的な推論や質問応答、対話などのタスクへの取り組みが多くなってきている印象です。。私は含意関係認識研究を4年ほどやっていたので少し悲しさがありますが、研究トレンドは移り変わるものなので仕方がないとも思っています。

今後のはなし

含意関係認識・推論関連のデータセットはまだまだたくさんあるので、気が向いたら（~~気が向くときが来るかはわかりませんが~~）ちょこちょこ追加してアップデートしていきたいと思います。
自然言語処理分野の他のタスクのデータセットについても体系的にまとめたい欲があるので、いつかやる気が溢れ出たときにまとめたいです。