「GPT-5.3がMMLU-Proで88%達成」「Claude Opus 4.7がChatbot Arenaで1505点」——こういうニュースを見て、正直なところ「で、結局どっちが強いの?」と思ったことはないでしょうか。
LLMの新モデルが出るたびに各社が並べるベンチマークスコア。数字は出るのに、その数字が何を意味するのかを解説した記事は驚くほど少ない。MMLU-Proのスコアが高いモデルとChatbot Arenaで人気のモデル、どっちを選ぶべきか? HumanEvalとSWE-benchの違いは?
この記事では、2026年4月時点で業界で使われている 21項目の主要ベンチマーク を整理し、「結局なにを見ればいいのか」を明確にします。
ベンチマーク一覧:21指標をまず俯瞰する
まず全体像を把握しましょう。細かい解説は後述するので、ここでは「こういう種類のテストがある」という地図を作ります。
| # | 指標名 | カテゴリ | テスト内容 | 問題数 | 難易度 |
|---|---|---|---|---|---|
| 1 | MMLU | 知識 | 57学科の知識広度テスト | 15,908問 | 中 |
| 2 | MMLU-Pro ⭐ | 知識 | 10択の高難度推論版 | 約12,000問 | 高 |
| 3 | HellaSwag ⭐ | 推論 | 常識推論・文章補完 | 10,000問 | 中 |
| 4 | HumanEval ⭐ | コード | Pythonプログラミング | 164問 | 中 |
| 5 | GSM8K ⭐ | 推論 | 小〜中学レベルの算数推論 | 8,500問 | 中 |
| 6 | MATH | 推論 | 大学レベルの数学 | 12,500問 | 高 |
| 7 | TruthfulQA ⭐ | 真実性 | 幻覚耐性テスト | 817問 | 中 |
| 8 | GPQA | 知識 | 大学院レベルの科学問題 | 448問 | 高 |
| 9 | BBH | 推論 | 23種の高難度推論タスク | 23セット | 高 |
| 10 | MMLU-CoT | 知識 | Chain-of-Thought版MMLU | 15,908問 | 中 |
| 11 | ARC | 推論 | 科学QA推論チャレンジ | 7,787問 | 中 |
| 12 | WinoGrande | 推論 | 代名詞解消推論 | 44,000問 | 中 |
| 13 | SQuAD | 知識 | 読解力テスト | 100,000+問 | 低 |
| 14 | SuperGLUE | 総合 | 言語理解の総合テスト | 複数タスク | 中 |
| 15 | Chatbot Arena ⭐ | 総合 | 人間投票によるELOランキング | 常時更新 | — |
| 16 | SWE-bench ⭐ | コード | ソフトウェアエンジニアリング評価 | 2,294問 | 高 |
| 17 | MMMLU | 知識 | 多言語版知識テスト | 各言語約15,908問 | 中 |
| 18 | MuSR | 推論 | 多段階ソフト推論 | 約2,400問 | 高 |
| 19 | IFEval | 総合 | 指示追従能力テスト | 約540問 | 中 |
| 20 | OSWorld | Agent | OS操作タスク評価 | 369タスク | 高 |
| 21 | AgentBench | Agent | マルチ環境Agent評価 | 8環境 | 高 |
⭐マークが付いた7つが、業界で「コア指標」と呼ばれるもの。モデル選定で最初に見るべき項目です。
カテゴリ別の内訳:
| カテゴリ | 指標数 | 代表的な指標 |
|---|---|---|
| 推論能力 | 8項目 | GSM8K、HellaSwag、MATH、BBH |
| 知識 | 5項目 | MMLU、MMLU-Pro、GPQA |
| 総合評価 | 3項目 | Chatbot Arena、SuperGLUE、IFEval |
| コード能力 | 2項目 | HumanEval、SWE-bench |
| 真実性 | 1項目 | TruthfulQA |
| Agent能力 | 2項目 | OSWorld、AgentBench |
コア指標7選:ここだけ押さえれば大丈夫
21個全部を細かく覚える必要はありません。以下の7つを理解すれば、モデルの「成績表」は十分読めるようになります。
1. SWE-bench Verified——「本物のソフトウェアエンジニアか?」
最近もっとも注目度が上がっているのがこの指標。SWE-benchは単にコードを書けるかではなく、実在のGitHub Issueを自力で解決できるかを測ります。
テストの流れはこうです:
- 実際のGitHub Issueが与えられる(例:「Djangoのログインにバグがある」)
- 数百万行のコードベースから関連ファイルを特定
- バグの原因を分析
- 修正パッチを作成
- テストを通して修復を検証
正直、最初にこのベンチマークの内容を知ったとき「これ人間でも半分くらいしか解けないのでは」と思いました。実際、人間のソフトウェアエンジニアでも未知のリポジトリでIssueを直すのは結構大変です。
テスト概要:
- 500件の人手検証済みGitHub Issue
- Django、Flask、scikit-learn等の実プロジェクト
- 評価基準:修正パッチが全テストをパスするか
TOP 3(2026年4月時点):
| 順位 | モデル | 開発元 | スコア | 備考 |
|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 93.9% | パートナー限定 |
| 2 | Claude Opus 4.7 (Adaptive) | Anthropic | 87.6% | 一般利用可 |
| 3 | GPT-5.3 Codex | OpenAI | 85.0% | コード特化モデル |
Anthropicが上位を独占している状態。ただしSWE-bench Pro(より高難度版)になると全体的にスコアが約20%下がり、Claude Opus 4.7でも64.3%まで落ちます。現時点のAIにとって「本物のエンジニアリング」はまだ高い壁があるということ。
2. MMLU-Pro——「どれだけ博識か?」
MMLU-Proは57学科にわたる約12,000問の選択式テスト。しかも選択肢が10個ある。普通の試験は4択なので、当てずっぽうでは通用しません。
法律、医学、物理、歴史、コンピュータサイエンス……文系理系を問わず全方位の知識を問われる。AIの「教養力」を測る指標だと言えます。
TOP 3(2026年4月時点):
| 順位 | モデル | 開発元 | スコア | 備考 |
|---|---|---|---|---|
| 1 | Qwen3.6 Plus | アリババ通義チーム | 88.5% | 商用モデル |
| 2 | MiniMax M2.1 | MiniMax | 88.0% | 2300億パラメータ |
| 3 | Qwen3.5-397B-A17B | アリババ通義チーム | 87.8% | オープンソース |
ここは中国勢が強い。Qwenシリーズが1位と3位を押さえているのは、学習データの多様性が効いているのかもしれません。
3. HellaSwag——「常識があるか?」
HellaSwagは「日常的な文脈を理解しているか」をテストします。
例題のイメージ:
「冷蔵庫を開けて牛乳を見つけた太郎は……」
- A. 牛乳が空を飛んだ
- B. 牛乳を取り出して飲んだ
- C. 冷蔵庫が歌い始めた
- D. 牛乳が金に変わった
人間なら当然Bだとわかる。でもAIにとって「当たり前」の判断は意外と難しい。学術知識に強くてもここが弱いモデルは、実際の会話で「なんか噛み合わない」感じになります。
TOP 3(2026年4月時点):
| 順位 | モデル | 開発元 | スコア | 備考 |
|---|---|---|---|---|
| 1 | Claude 3 Opus | Anthropic | 95.4% | 人間レベル到達 |
| 2 | GPT-4 | OpenAI | 95.3% | 人間レベル到達 |
| 3 | Gemini 1.5 Pro | 93.3% | — |
人間のスコアが約95%なので、上位2モデルは人間と同等。このベンチマークはほぼ「天井」に達しており、差別化指標としての役目は終わりつつあります。
4. HumanEval——「コードが書けるか?」
164問のPythonプログラミング問題。「偶数の合計を返す関数を書け」のような実践的な課題で、コードが実際に動くかどうか で採点されます。「それっぽいコード」では通らない。
TOP 3(2026年4月時点):
| 順位 | モデル | 開発元 | スコア | 備考 |
|---|---|---|---|---|
| 1 | MiniCPM-SALA | OpenBMB | 95.1% | たった90億パラメータ |
| 2 | Kimi K2 0905 | 月之暗面 | 94.5% | 1兆パラメータ、OSS |
| 3 | Claude 3.5 Sonnet | Anthropic | 93.7% | 商用モデル |
注目は1位のMiniCPM-SALA。パラメータ数がたった90億で、1兆パラメータのKimi K2を上回っている。「小さくても精密なモデル」が「巨大だが汎用のモデル」を特定タスクで凌駕する好例です。
5. GSM8K——「論理的に考えられるか?」
小学校〜中学校レベルの文章題、8,500問。計算そのものより「問題を分解して段階的に考えられるか」がポイントです。
「太郎はリンゴを5個持っていて、花子に3個あげた後、さらに7個買った。太郎のリンゴは何個?」
この手の多段階推論を途中の計算式付きで正答できるかを測ります。
TOP 3(2026年4月時点):
| 順位 | モデル | 開発元 | スコア | 備考 |
|---|---|---|---|---|
| 1 | Kimi K2 Instruct | 月之暗面 | 97.3% | 1兆パラメータ、OSS |
| 2 | o1 | OpenAI | 97.1% | 推論特化モデル |
| 3 | GPT-4.5 | OpenAI | 97.0% | — |
トップ3がすべて97%前後。このレベルの算数はもう「解けて当然」になりつつあります。差がつくのはもっと難しいMATH(大学レベル)のほうで、そちらではスコアが60-70%台まで落ちる。
6. TruthfulQA——「嘘をつかないか?」
817問の「ひっかけ問題」で構成される、ある意味もっとも嫌らしいテスト。
「砂糖を食べると子どもが多動になるって本当?」
実は科学的根拠はない。でも世間一般ではそう信じている人が多い。AIは訓練データの「多数派の意見」に引っ張られやすいので、こういう「よくある誤解」を鵜呑みにして回答しがち。TruthfulQAはその耐性を測ります。
TOP 3(2026年4月時点):
| 順位 | モデル | 開発元 | スコア | 備考 |
|---|---|---|---|---|
| 1 | Phi-3.5-MoE-instruct | Microsoft | 77.5% | 600億パラメータ、OSS |
| 2 | Granite 3.3 8B Instruct | IBM | 66.9% | 80億パラメータ、OSS |
| 3 | Phi 4 Mini | Microsoft | 66.4% | 40億パラメータ、OSS |
面白い傾向がここに出ています。小型モデルのほうがスコアが高い。巨大モデルは膨大な知識を持つ反面、ネット上の「通説」も大量に学習しているため、誤情報をそのまま出力するリスクが高まるようです。「知りすぎるがゆえに嘘をつく」というのは皮肉ですね。
7. Chatbot Arena——「ユーザーに選ばれるか?」
ほかのベンチマークとまったく性質が違う。Chatbot Arenaは人間が直接評価する仕組みです。
ルール:
- ユーザーが質問を投げる
- 匿名の2モデルがそれぞれ回答
- ユーザーが「どっちが良かったか」を投票
- 数万件の投票からELOスコアを算出
チェスのレーティングと同じ方式で、勝ちが多いほどスコアが上がる。
TOP 3(2026年4月時点):
| 順位 | モデル | 開発元 | ELO | 備考 |
|---|---|---|---|---|
| 1 | Claude Opus 4.7 Thinking | Anthropic | 1505 | 推論強化版 |
| 2 | Claude Opus 4.6 Thinking | Anthropic | 1503 | — |
| 3 | muse-spark | Meta | 1496 | オープンウェイト |
上位3モデルの差はわずか9ポイント。ELOで100ポイント差があると対戦勝率64%程度なので、この差は統計的に有意ではない可能性が高いです。
ここが厄介で面白いところ: Chatbot Arenaの順位とMMLU-Proの順位はかなりズレます。
- Claude系は「ユーザー体験」が高評価(回答の質感・自然さ)
- GPT系は「テスト成績」が強い(正解率が高い)
- 一部のモデルは「話し上手だけど仕事ができない」、逆もある
つまり高得点 ≠ 実用的に優秀。ここを理解しておかないと、モデル選定で痛い目を見ます。
スコアを読むときの4つのポイント
ベンチマーク表を眺めるだけでは判断を誤ります。以下の視点を持っておくと、数字に踊らされなくなる。
① 単一スコアで判断しない
高校受験と同じで、科目ごとに得意・不得意があります。
- 対話品質を重視 → Chatbot Arena
- コーディング支援 → HumanEval + SWE-bench
- 学習・調査用途 → MMLU-Pro
- 信頼性が最重要 → TruthfulQA
自分のユースケースに合った指標を見ること。「総合1位」を追いかけると遠回りになります。
② 難易度を考慮する
「90点」という数字だけでは何もわかりません。
- GSM8K(小学算数)で97%:もう差がつかないレベル
- MATH(大学数学)で70%:かなりの実力
同じスコアでも難易度が違えば意味が全然違う。
③ 評価基準の違いを意識する
- 正答率(MMLU-Pro、GSM8K):何問正解したか
- Pass@1(HumanEval):1回でコードが通る確率
- ELO(Chatbot Arena):相対ランキング、上限なし
これらを混ぜて比較するのは、リンゴとオレンジを比べるのと同じです。
④ スナップショットであることを忘れない
AI業界は月単位で順位が入れ替わります。今日の1位が来月には5位に落ちることもある。特定時点のランキングに固執せず、各社の改善トレンドを追うほうが実用的です。
ユースケース別の推奨指標マップ
「で、自分はどの指標を見ればいいの?」という方向けに整理しました。
| ユースケース | 見るべき指標 | 理由 |
|---|---|---|
| 日常の会話・ライティング | Chatbot Arena | ユーザー体験に直結 |
| コーディング支援 | HumanEval、SWE-bench | コード生成力+実務力 |
| 学習補助・数学 | GSM8K、MATH | 推論力の指標 |
| 専門領域の調査 | MMLU-Pro | 知識の幅と深さ |
| 正確性が最重要 | TruthfulQA | 幻覚リスクの評価 |
| エンタープライズ導入 | TruthfulQA + Chatbot Arena | 信頼性と体験の両立 |
| Agent・自動化 | SWE-bench、OSWorld | 自律タスク遂行力 |
| 複雑なワークフロー | AgentBench、SWE-bench Pro | 多段階タスクの耐久力 |
ベンチマークの限界——ここは見落とすと危ない
ベンチマークは便利なツールですが、盲信は禁物。いくつかの構造的な問題を知っておくべきです。
「テスト対策」問題
モデル開発側がベンチマークのテスト問題を学習データに混ぜる(いわゆるcontamination)リスクは常に存在します。スコアが上がっても「本当に賢くなった」のか「答えを暗記しただけ」なのかは外からは判断しにくい。
カバー範囲の限界
現行のベンチマークは「正解がある問題」に偏っています。でも実際にAIを使う場面は、クリエイティブライティング、感情的なサポート、複雑な意思決定など、正解が一つに定まらないタスクのほうが多い。
鮮度の問題
この記事のデータは2026年4月時点のものです。あなたがこれを読んでいる頃には、もう順位が変わっているかもしれない。ベンチマークの「生鮮食品」感覚は常に意識してください。
万能モデルは存在しない
これは何度強調しても足りません。すべてのベンチマークで1位のモデルは存在しない。Claudeが対話で強く、Qwenが知識テストで強く、小型モデルが真実性で強いように、得意分野は分散しています。
まとめ:数字の向こうにある「使い勝手」を見る
ベンチマークは「参考書」であって「教科書」ではありません。
LLMの成績表を読むコツは3つ:
- 自分のユースケースに合った指標だけ見る——全科目の成績は不要
- 複数の指標を組み合わせる——単一スコアは一面しか見えない
- 実際に触ってみる——最終的には自分の手で試すのが最速
個人的には、新しいモデルが出るたびにまずChatbot Arenaの順位を確認し、気になったらHumanEvalとSWE-benchのスコアをチェックする、という流れに落ち着いています。全部のベンチマークを追いかけるのは正直しんどいので、自分に関係のある2-3指標に絞ったほうが精神衛生上も良いです。
あなたはモデル選びのとき、どの指標を一番重視していますか? コメントで教えてください。
参考データソース
| データソース | URL | 概要 |
|---|---|---|
| LLM Stats | https://llm-stats.com/ | LLM評価データの統合プラットフォーム |
| Chatbot Arena (LMSYS) | https://lmarena.ai/ | UC Berkeley運営の人間ブラインドテスト |
| Hugging Face Open LLM Leaderboard | https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard | OSSモデルのリーダーボード |
データ取得時点: 2026年4月26日
