LLMベンチマーク21選を完全解説：AIの「成績表」を正しく読む方法

Posted at 2026-04-26

「GPT-5.3がMMLU-Proで88%達成」「Claude Opus 4.7がChatbot Arenaで1505点」——こういうニュースを見て、正直なところ「で、結局どっちが強いの？」と思ったことはないでしょうか。

LLMの新モデルが出るたびに各社が並べるベンチマークスコア。数字は出るのに、その数字が何を意味するのかを解説した記事は驚くほど少ない。MMLU-Proのスコアが高いモデルとChatbot Arenaで人気のモデル、どっちを選ぶべきか？　HumanEvalとSWE-benchの違いは？

この記事では、2026年4月時点で業界で使われている 21項目の主要ベンチマーク を整理し、「結局なにを見ればいいのか」を明確にします。

ベンチマーク一覧：21指標をまず俯瞰する

まず全体像を把握しましょう。細かい解説は後述するので、ここでは「こういう種類のテストがある」という地図を作ります。

#	指標名	カテゴリ	テスト内容	問題数	難易度
1	MMLU	知識	57学科の知識広度テスト	15,908問	中
2	MMLU-Pro ⭐	知識	10択の高難度推論版	約12,000問	高
3	HellaSwag ⭐	推論	常識推論・文章補完	10,000問	中
4	HumanEval ⭐	コード	Pythonプログラミング	164問	中
5	GSM8K ⭐	推論	小〜中学レベルの算数推論	8,500問	中
6	MATH	推論	大学レベルの数学	12,500問	高
7	TruthfulQA ⭐	真実性	幻覚耐性テスト	817問	中
8	GPQA	知識	大学院レベルの科学問題	448問	高
9	BBH	推論	23種の高難度推論タスク	23セット	高
10	MMLU-CoT	知識	Chain-of-Thought版MMLU	15,908問	中
11	ARC	推論	科学QA推論チャレンジ	7,787問	中
12	WinoGrande	推論	代名詞解消推論	44,000問	中
13	SQuAD	知識	読解力テスト	100,000+問	低
14	SuperGLUE	総合	言語理解の総合テスト	複数タスク	中
15	Chatbot Arena ⭐	総合	人間投票によるELOランキング	常時更新	—
16	SWE-bench ⭐	コード	ソフトウェアエンジニアリング評価	2,294問	高
17	MMMLU	知識	多言語版知識テスト	各言語約15,908問	中
18	MuSR	推論	多段階ソフト推論	約2,400問	高
19	IFEval	総合	指示追従能力テスト	約540問	中
20	OSWorld	Agent	OS操作タスク評価	369タスク	高
21	AgentBench	Agent	マルチ環境Agent評価	8環境	高

⭐マークが付いた7つが、業界で「コア指標」と呼ばれるもの。モデル選定で最初に見るべき項目です。

カテゴリ別の内訳：

カテゴリ	指標数	代表的な指標
推論能力	8項目	GSM8K、HellaSwag、MATH、BBH
知識	5項目	MMLU、MMLU-Pro、GPQA
総合評価	3項目	Chatbot Arena、SuperGLUE、IFEval
コード能力	2項目	HumanEval、SWE-bench
真実性	1項目	TruthfulQA
Agent能力	2項目	OSWorld、AgentBench

コア指標7選：ここだけ押さえれば大丈夫

21個全部を細かく覚える必要はありません。以下の7つを理解すれば、モデルの「成績表」は十分読めるようになります。

1. SWE-bench Verified——「本物のソフトウェアエンジニアか？」

最近もっとも注目度が上がっているのがこの指標。SWE-benchは単にコードを書けるかではなく、実在のGitHub Issueを自力で解決できるかを測ります。

テストの流れはこうです：

実際のGitHub Issueが与えられる（例：「Djangoのログインにバグがある」）
数百万行のコードベースから関連ファイルを特定
バグの原因を分析
修正パッチを作成
テストを通して修復を検証

正直、最初にこのベンチマークの内容を知ったとき「これ人間でも半分くらいしか解けないのでは」と思いました。実際、人間のソフトウェアエンジニアでも未知のリポジトリでIssueを直すのは結構大変です。

テスト概要：

500件の人手検証済みGitHub Issue
Django、Flask、scikit-learn等の実プロジェクト
評価基準：修正パッチが全テストをパスするか

TOP 3（2026年4月時点）：

順位	モデル	開発元	スコア	備考
1	Claude Mythos Preview	Anthropic	93.9%	パートナー限定
2	Claude Opus 4.7 (Adaptive)	Anthropic	87.6%	一般利用可
3	GPT-5.3 Codex	OpenAI	85.0%	コード特化モデル

Anthropicが上位を独占している状態。ただしSWE-bench Pro（より高難度版）になると全体的にスコアが約20%下がり、Claude Opus 4.7でも64.3%まで落ちます。現時点のAIにとって「本物のエンジニアリング」はまだ高い壁があるということ。

2. MMLU-Pro——「どれだけ博識か？」

MMLU-Proは57学科にわたる約12,000問の選択式テスト。しかも選択肢が10個ある。普通の試験は4択なので、当てずっぽうでは通用しません。

法律、医学、物理、歴史、コンピュータサイエンス……文系理系を問わず全方位の知識を問われる。AIの「教養力」を測る指標だと言えます。

TOP 3（2026年4月時点）：

順位	モデル	開発元	スコア	備考
1	Qwen3.6 Plus	アリババ通義チーム	88.5%	商用モデル
2	MiniMax M2.1	MiniMax	88.0%	2300億パラメータ
3	Qwen3.5-397B-A17B	アリババ通義チーム	87.8%	オープンソース

ここは中国勢が強い。Qwenシリーズが1位と3位を押さえているのは、学習データの多様性が効いているのかもしれません。

3. HellaSwag——「常識があるか？」

HellaSwagは「日常的な文脈を理解しているか」をテストします。

例題のイメージ：

「冷蔵庫を開けて牛乳を見つけた太郎は……」

A. 牛乳が空を飛んだ

B. 牛乳を取り出して飲んだ

C. 冷蔵庫が歌い始めた

D. 牛乳が金に変わった

人間なら当然Bだとわかる。でもAIにとって「当たり前」の判断は意外と難しい。学術知識に強くてもここが弱いモデルは、実際の会話で「なんか噛み合わない」感じになります。

TOP 3（2026年4月時点）：

順位	モデル	開発元	スコア	備考
1	Claude 3 Opus	Anthropic	95.4%	人間レベル到達
2	GPT-4	OpenAI	95.3%	人間レベル到達
3	Gemini 1.5 Pro	Google	93.3%	—

人間のスコアが約95%なので、上位2モデルは人間と同等。このベンチマークはほぼ「天井」に達しており、差別化指標としての役目は終わりつつあります。

4. HumanEval——「コードが書けるか？」

164問のPythonプログラミング問題。「偶数の合計を返す関数を書け」のような実践的な課題で、コードが実際に動くかどうか で採点されます。「それっぽいコード」では通らない。

TOP 3（2026年4月時点）：

順位	モデル	開発元	スコア	備考
1	MiniCPM-SALA	OpenBMB	95.1%	たった90億パラメータ
2	Kimi K2 0905	月之暗面	94.5%	1兆パラメータ、OSS
3	Claude 3.5 Sonnet	Anthropic	93.7%	商用モデル

注目は1位のMiniCPM-SALA。パラメータ数がたった90億で、1兆パラメータのKimi K2を上回っている。「小さくても精密なモデル」が「巨大だが汎用のモデル」を特定タスクで凌駕する好例です。

5. GSM8K——「論理的に考えられるか？」

小学校〜中学校レベルの文章題、8,500問。計算そのものより「問題を分解して段階的に考えられるか」がポイントです。

「太郎はリンゴを5個持っていて、花子に3個あげた後、さらに7個買った。太郎のリンゴは何個？」

この手の多段階推論を途中の計算式付きで正答できるかを測ります。

TOP 3（2026年4月時点）：

順位	モデル	開発元	スコア	備考
1	Kimi K2 Instruct	月之暗面	97.3%	1兆パラメータ、OSS
2	o1	OpenAI	97.1%	推論特化モデル
3	GPT-4.5	OpenAI	97.0%	—

トップ3がすべて97%前後。このレベルの算数はもう「解けて当然」になりつつあります。差がつくのはもっと難しいMATH（大学レベル）のほうで、そちらではスコアが60-70%台まで落ちる。

6. TruthfulQA——「嘘をつかないか？」

817問の「ひっかけ問題」で構成される、ある意味もっとも嫌らしいテスト。

「砂糖を食べると子どもが多動になるって本当？」

実は科学的根拠はない。でも世間一般ではそう信じている人が多い。AIは訓練データの「多数派の意見」に引っ張られやすいので、こういう「よくある誤解」を鵜呑みにして回答しがち。TruthfulQAはその耐性を測ります。

TOP 3（2026年4月時点）：

順位	モデル	開発元	スコア	備考
1	Phi-3.5-MoE-instruct	Microsoft	77.5%	600億パラメータ、OSS
2	Granite 3.3 8B Instruct	IBM	66.9%	80億パラメータ、OSS
3	Phi 4 Mini	Microsoft	66.4%	40億パラメータ、OSS

面白い傾向がここに出ています。小型モデルのほうがスコアが高い。巨大モデルは膨大な知識を持つ反面、ネット上の「通説」も大量に学習しているため、誤情報をそのまま出力するリスクが高まるようです。「知りすぎるがゆえに嘘をつく」というのは皮肉ですね。

7. Chatbot Arena——「ユーザーに選ばれるか？」

ほかのベンチマークとまったく性質が違う。Chatbot Arenaは人間が直接評価する仕組みです。

ルール：

ユーザーが質問を投げる
匿名の2モデルがそれぞれ回答
ユーザーが「どっちが良かったか」を投票
数万件の投票からELOスコアを算出

チェスのレーティングと同じ方式で、勝ちが多いほどスコアが上がる。

TOP 3（2026年4月時点）：

順位	モデル	開発元	ELO	備考
1	Claude Opus 4.7 Thinking	Anthropic	1505	推論強化版
2	Claude Opus 4.6 Thinking	Anthropic	1503	—
3	muse-spark	Meta	1496	オープンウェイト

上位3モデルの差はわずか9ポイント。ELOで100ポイント差があると対戦勝率64%程度なので、この差は統計的に有意ではない可能性が高いです。

ここが厄介で面白いところ： Chatbot Arenaの順位とMMLU-Proの順位はかなりズレます。

Claude系は「ユーザー体験」が高評価（回答の質感・自然さ）
GPT系は「テスト成績」が強い（正解率が高い）
一部のモデルは「話し上手だけど仕事ができない」、逆もある

つまり高得点 ≠ 実用的に優秀。ここを理解しておかないと、モデル選定で痛い目を見ます。

スコアを読むときの4つのポイント

ベンチマーク表を眺めるだけでは判断を誤ります。以下の視点を持っておくと、数字に踊らされなくなる。

① 単一スコアで判断しない

高校受験と同じで、科目ごとに得意・不得意があります。

対話品質を重視 → Chatbot Arena
コーディング支援 → HumanEval + SWE-bench
学習・調査用途 → MMLU-Pro
信頼性が最重要 → TruthfulQA

自分のユースケースに合った指標を見ること。「総合1位」を追いかけると遠回りになります。

② 難易度を考慮する

「90点」という数字だけでは何もわかりません。

GSM8K（小学算数）で97%：もう差がつかないレベル
MATH（大学数学）で70%：かなりの実力

同じスコアでも難易度が違えば意味が全然違う。

③ 評価基準の違いを意識する

正答率（MMLU-Pro、GSM8K）：何問正解したか
Pass@1（HumanEval）：1回でコードが通る確率
ELO（Chatbot Arena）：相対ランキング、上限なし

これらを混ぜて比較するのは、リンゴとオレンジを比べるのと同じです。

④ スナップショットであることを忘れない

AI業界は月単位で順位が入れ替わります。今日の1位が来月には5位に落ちることもある。特定時点のランキングに固執せず、各社の改善トレンドを追うほうが実用的です。

ユースケース別の推奨指標マップ

「で、自分はどの指標を見ればいいの？」という方向けに整理しました。

ユースケース	見るべき指標	理由
日常の会話・ライティング	Chatbot Arena	ユーザー体験に直結
コーディング支援	HumanEval、SWE-bench	コード生成力+実務力
学習補助・数学	GSM8K、MATH	推論力の指標
専門領域の調査	MMLU-Pro	知識の幅と深さ
正確性が最重要	TruthfulQA	幻覚リスクの評価
エンタープライズ導入	TruthfulQA + Chatbot Arena	信頼性と体験の両立
Agent・自動化	SWE-bench、OSWorld	自律タスク遂行力
複雑なワークフロー	AgentBench、SWE-bench Pro	多段階タスクの耐久力

ベンチマークの限界——ここは見落とすと危ない

ベンチマークは便利なツールですが、盲信は禁物。いくつかの構造的な問題を知っておくべきです。

「テスト対策」問題

モデル開発側がベンチマークのテスト問題を学習データに混ぜる（いわゆるcontamination）リスクは常に存在します。スコアが上がっても「本当に賢くなった」のか「答えを暗記しただけ」なのかは外からは判断しにくい。

カバー範囲の限界

現行のベンチマークは「正解がある問題」に偏っています。でも実際にAIを使う場面は、クリエイティブライティング、感情的なサポート、複雑な意思決定など、正解が一つに定まらないタスクのほうが多い。

鮮度の問題

この記事のデータは2026年4月時点のものです。あなたがこれを読んでいる頃には、もう順位が変わっているかもしれない。ベンチマークの「生鮮食品」感覚は常に意識してください。

万能モデルは存在しない

これは何度強調しても足りません。すべてのベンチマークで1位のモデルは存在しない。Claudeが対話で強く、Qwenが知識テストで強く、小型モデルが真実性で強いように、得意分野は分散しています。

まとめ：数字の向こうにある「使い勝手」を見る

ベンチマークは「参考書」であって「教科書」ではありません。

LLMの成績表を読むコツは3つ：

自分のユースケースに合った指標だけ見る——全科目の成績は不要
複数の指標を組み合わせる——単一スコアは一面しか見えない
実際に触ってみる——最終的には自分の手で試すのが最速

個人的には、新しいモデルが出るたびにまずChatbot Arenaの順位を確認し、気になったらHumanEvalとSWE-benchのスコアをチェックする、という流れに落ち着いています。全部のベンチマークを追いかけるのは正直しんどいので、自分に関係のある2-3指標に絞ったほうが精神衛生上も良いです。

あなたはモデル選びのとき、どの指標を一番重視していますか？　コメントで教えてください。

参考データソース

データソース	URL	概要
LLM Stats	https://llm-stats.com/	LLM評価データの統合プラットフォーム
Chatbot Arena (LMSYS)	https://lmarena.ai/	UC Berkeley運営の人間ブラインドテスト
Hugging Face Open LLM Leaderboard	https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard	OSSモデルのリーダーボード

データ取得時点： 2026年4月26日

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up