名称 | カテゴリー | 目的・評価対象 | 主な指標 | 特徴 | 使用モデル・用途 | 出典/リンク |
---|---|---|---|---|---|---|
GLUE | 言語理解 | 文分類・自然言語理解 | Accuracy, F1 | 代表的なNLP評価セット、比較的簡単 | BERT, RoBERTa | GLUE |
SuperGLUE | 言語理解 | 高難度NLP理解(推論, QAなど) | Accuracy, F1 | GLUEの発展版、より難しい推論を含む | GPT系, T5, PaLM | SuperGLUE |
MMLU (Massive Multitask Language Understanding) | 知識・推論 | 多分野の知識(57分野) | Accuracy | 大規模・幅広い知識理解、LLM比較でよく利用 | GPT-4, Claude, LLaMA | MMLU論文 |
BIG-bench | 包括的評価 | 多様なタスク (>200) | Accuracy, 多様 | 大規模・協調型タスク集 | PaLM, GPT-3, GPT-4 | BIG-bench |
HumanEval | コード生成 | Pythonコード生成 | Pass@k | コード正確性(ユニットテストベース) | Codex, GPT-4 | HumanEval |
MBPP (Mostly Basic Python Problems) | コード生成 | 初級Python問題 | Pass@k | 難易度低めのプログラミング課題 | GPT-3, Codex | MBPP |
BLEU / ROUGE / METEOR | 自然言語生成 | 機械翻訳・要約 | BLEU, ROUGE, METEOR | 参照文との類似度、自動評価 | 翻訳モデル, 要約モデル | BLEU |
ChrF | 自然言語生成 | 機械翻訳 | chrFスコア | 文字n-gram一致度 | 翻訳モデル | ChrF |
TruthfulQA | 安全性・信頼性 | 真実性(錯覚/幻覚) | Accuracy | 幻覚生成を防ぐ性能測定 | GPT-3, GPT-4 | TruthfulQA |
ToxiGen | 安全性・倫理 | 有害発話の検出 | Accuracy, AUC | ヘイト/毒性言語評価 | GPT, BERT系 | ToxiGen |
HellaSwag | 常識推論 | 文補完・常識推論 | Accuracy | 難しい常識的文脈推論 | GPT系, LLaMA | HellaSwag |
Winogrande | 常識推論 | 代名詞消去・常識推論 | Accuracy | Winograd Schemaの拡張版 | GPT系, T5, LLaMA | Winogrande |
Open LLM Leaderboard (HuggingFace) | 総合評価 | 複数ベンチ統合 (MMLU, TruthfulQA, etc.) | Accuracy, 平均スコア | オープンモデル比較 | LLaMA, Falcon, MPT | HuggingFace Leaderboard |
MT-Bench | 応答品質 | マルチターン対話評価 | 人手スコア (Likert) | Chatbot評価に特化 | GPT-4, ChatGPT | MT-Bench |
Chatbot Arena (Elo Rating) | 応答品質 | 人間によるペア比較 | Elo rating | 大規模クラウドソース評価 | GPT-4, Claude, Gemini | Chatbot Arena |
Arena-Hard | 応答品質・推論 | 難問ベンチ + ペア比較 | Elo rating | 難問に特化したArena | GPT-4, Claude | Arena-Hard |
MultiModal Benchmarks (e.g., VQA, MMMU) | マルチモーダル | 画像+テキスト理解 | Accuracy | 画像・動画+言語の統合評価 | GPT-4V, Gemini | MMMU |
Register as a new user and use Qiita more conveniently
- You get articles that match your needs
- You can efficiently read back useful information
- You can use dark theme