GLUEとは
General Language Understanding Evaluation(一般言語理解評価)
BERTなどの言語モデルの「言語理解力」を測る9種類のテストを集めたベンチマーク。
9タスクを3カテゴリに分類
┌─────────────────────────────────────────────────────────┐
│ │
│ 【単一文タスク】(1つの文を評価) │
│ CoLA ─ 文法的に正しいか? │
│ SST-2 ─ ポジティブ/ネガティブか? │
│ │
│ 【類似・言い換えタスク】(2つの文が似ているか) │
│ MRPC ─ 言い換えか?(ニュース文) │
│ STS-B ─ どれくらい似ているか?(類似度スコア) │
│ QQP ─ 同じ質問か?(Quora) │
│ │
│ 【推論タスク】(2つの文の関係を推論) │
│ MNLI ─ 含意/矛盾/中立?(大規模NLI) │
│ QNLI ─ 質問の答えを含むか? │
│ RTE ─ 含意しているか? │
│ WNLI ─ 代名詞は誰を指す?(Winograd) │
│ │
└─────────────────────────────────────────────────────────┘
9タスク早見表
| 略称 | 正式名 | タスク内容 | 一言で |
|---|---|---|---|
| CoLA | Corpus of Linguistic Acceptability | 文法的に正しいか | 文法警察 |
| SST-2 | Stanford Sentiment Treebank | 感情分析(映画レビュー) | 映画の感想 |
| MRPC | Microsoft Research Paraphrase Corpus | 言い換えか判定 | 同じこと言ってる? |
| STS-B | Semantic Textual Similarity Benchmark | 類似度スコア(1〜5) | 似てる度 |
| QQP | Quora Question Pairs | 同じ質問か判定 | Quoraで重複? |
| MNLI | Multi-Genre NLI | 含意/矛盾/中立の3分類 | NLIの親玉 |
| QNLI | Question NLI | 質問の答えを含むか | 答え入ってる? |
| RTE | Recognizing Textual Entailment | 含意しているか | 言えてる? |
| WNLI | Winograd NLI | 代名詞の指示対象 | 誰のこと? |
語呂合わせで暗記
9タスクの頭文字
「コッ・スス・マスク・ムク・ルウ」
コッ → CoLA
スス → SST-2, STS-B
マスク → MRPC, QQP(マスクのQQQ...的な)
ムク → MNLI, QNLI
ルウ → RTE, WNLI
もう一つの覚え方:ストーリー仕立て
「コーラ飲んでSST(そうそうと)映画見て、マイクロソフトでQ連発、MとQがNLIで、RとWでウィノグラード」
コーラ飲んで → CoLA
SST映画見て → SST-2
マイクロソフトで → MRPC
Q連発 → QQP
MとQがNLI → MNLI, QNLI
RとWでウィノ → RTE, WNLI
カテゴリ別の覚え方
【単一文】「コスプレ」
CoLA(コ)+ SST-2(ス) = コス → コスプレ(1人で完結)
【類似】「MとSとQ」
MRPC, STS-B, QQP → 「エムとエスとキュー」(2文の類似)
【推論】「MQ・RW」
MNLI, QNLI, RTE, WNLI → 「エムキュー・アールダブリュー」
各タスクのイメージ図
【CoLA】文法チェック
"The cat the dog chased meowed." → 文法的にOK?NG?
【SST-2】感情分析
"This movie was absolutely amazing!" → ポジティブ/ネガティブ
【MRPC】言い換え判定
文A: "The company announced a merger."
文B: "A merger was announced by the company."
→ 同じ意味?
【STS-B】類似度スコア
文A: "A cat is sleeping."
文B: "A dog is running."
→ 類似度:1.2 / 5.0
【QQP】同じ質問か
Q1: "How do I learn Python?"
Q2: "What's the best way to learn Python?"
→ 同じ質問?
【MNLI】含意・矛盾・中立
前提: "A man is playing guitar."
仮説: "Someone is making music."
→ 含意 / 矛盾 / 中立?
【QNLI】答えを含むか
質問: "When was the Eiffel Tower built?"
文: "The Eiffel Tower was completed in 1889."
→ 答えを含む?
【RTE】含意判定
文A: "The volcano erupted last night."
文B: "There was a natural disaster."
→ AはBを含意する?
【WNLI】代名詞解決
"The trophy doesn't fit in the suitcase because it is too big."
→ "it" = trophy? suitcase?
最終暗記カード
┌─────────────────────────────────────────────────────────┐
│ │
│ 【GLUE 9タスク暗記】 │
│ │
│ 単一文(2):CoLA(文法)、SST-2(感情) │
│ 類似(3):MRPC、STS-B、QQP(言い換え系) │
│ 推論(4):MNLI、QNLI、RTE、WNLI(NLI系) │
│ │
│ 語呂:「コーラSSTで映画見て、MSQで似てる判定、 │
│ MQRWで推論だ」 │
│ │
│ ※ 2 + 3 + 4 = 9タスク │
│ │
└─────────────────────────────────────────────────────────┘
おまけ:なぜGLUE?
GLUEは「接着剤(のり)」の意味。様々なNLPタスクを「くっつけて」評価するベンチマークだから。
BERTがGLUEで高得点を出して以来、言語モデルの性能比較の定番になった。今はより難しいSuperGLUEもある。
1分で理解シリーズ、お役に立てたらフォローお願いします!