1

LLM

Python

Posted at 2025-09-18

名称	カテゴリー	目的・評価対象	主な指標	特徴	使用モデル・用途	出典/リンク
GLUE	言語理解	文分類・自然言語理解	Accuracy, F1	代表的なNLP評価セット、比較的簡単	BERT, RoBERTa	GLUE
SuperGLUE	言語理解	高難度NLP理解（推論, QAなど）	Accuracy, F1	GLUEの発展版、より難しい推論を含む	GPT系, T5, PaLM	SuperGLUE
MMLU (Massive Multitask Language Understanding)	知識・推論	多分野の知識（57分野）	Accuracy	大規模・幅広い知識理解、LLM比較でよく利用	GPT-4, Claude, LLaMA	MMLU論文
BIG-bench	包括的評価	多様なタスク (>200)	Accuracy, 多様	大規模・協調型タスク集	PaLM, GPT-3, GPT-4	BIG-bench
HumanEval	コード生成	Pythonコード生成	Pass@k	コード正確性（ユニットテストベース）	Codex, GPT-4	HumanEval
MBPP (Mostly Basic Python Problems)	コード生成	初級Python問題	Pass@k	難易度低めのプログラミング課題	GPT-3, Codex	MBPP
BLEU / ROUGE / METEOR	自然言語生成	機械翻訳・要約	BLEU, ROUGE, METEOR	参照文との類似度、自動評価	翻訳モデル, 要約モデル	BLEU
ChrF	自然言語生成	機械翻訳	chrFスコア	文字n-gram一致度	翻訳モデル	ChrF
TruthfulQA	安全性・信頼性	真実性（錯覚/幻覚）	Accuracy	幻覚生成を防ぐ性能測定	GPT-3, GPT-4	TruthfulQA
ToxiGen	安全性・倫理	有害発話の検出	Accuracy, AUC	ヘイト/毒性言語評価	GPT, BERT系	ToxiGen
HellaSwag	常識推論	文補完・常識推論	Accuracy	難しい常識的文脈推論	GPT系, LLaMA	HellaSwag
Winogrande	常識推論	代名詞消去・常識推論	Accuracy	Winograd Schemaの拡張版	GPT系, T5, LLaMA	Winogrande
Open LLM Leaderboard (HuggingFace)	総合評価	複数ベンチ統合 (MMLU, TruthfulQA, etc.)	Accuracy, 平均スコア	オープンモデル比較	LLaMA, Falcon, MPT	HuggingFace Leaderboard
MT-Bench	応答品質	マルチターン対話評価	人手スコア (Likert)	Chatbot評価に特化	GPT-4, ChatGPT	MT-Bench
Chatbot Arena (Elo Rating)	応答品質	人間によるペア比較	Elo rating	大規模クラウドソース評価	GPT-4, Claude, Gemini	Chatbot Arena
Arena-Hard	応答品質・推論	難問ベンチ + ペア比較	Elo rating	難問に特化したArena	GPT-4, Claude	Arena-Hard
MultiModal Benchmarks (e.g., VQA, MMMU)	マルチモーダル	画像＋テキスト理解	Accuracy	画像・動画＋言語の統合評価	GPT-4V, Gemini	MMMU

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1