0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLMベンチマーク21選を完全解説:AIの「成績表」を正しく読む方法

0
Posted at

カバー画像

「GPT-5.3がMMLU-Proで88%達成」「Claude Opus 4.7がChatbot Arenaで1505点」——こういうニュースを見て、正直なところ「で、結局どっちが強いの?」と思ったことはないでしょうか。

LLMの新モデルが出るたびに各社が並べるベンチマークスコア。数字は出るのに、その数字が何を意味するのかを解説した記事は驚くほど少ない。MMLU-Proのスコアが高いモデルとChatbot Arenaで人気のモデル、どっちを選ぶべきか? HumanEvalとSWE-benchの違いは?

この記事では、2026年4月時点で業界で使われている 21項目の主要ベンチマーク を整理し、「結局なにを見ればいいのか」を明確にします。


ベンチマーク一覧:21指標をまず俯瞰する

まず全体像を把握しましょう。細かい解説は後述するので、ここでは「こういう種類のテストがある」という地図を作ります。

# 指標名 カテゴリ テスト内容 問題数 難易度
1 MMLU 知識 57学科の知識広度テスト 15,908問
2 MMLU-Pro 知識 10択の高難度推論版 約12,000問
3 HellaSwag 推論 常識推論・文章補完 10,000問
4 HumanEval コード Pythonプログラミング 164問
5 GSM8K 推論 小〜中学レベルの算数推論 8,500問
6 MATH 推論 大学レベルの数学 12,500問
7 TruthfulQA 真実性 幻覚耐性テスト 817問
8 GPQA 知識 大学院レベルの科学問題 448問
9 BBH 推論 23種の高難度推論タスク 23セット
10 MMLU-CoT 知識 Chain-of-Thought版MMLU 15,908問
11 ARC 推論 科学QA推論チャレンジ 7,787問
12 WinoGrande 推論 代名詞解消推論 44,000問
13 SQuAD 知識 読解力テスト 100,000+問
14 SuperGLUE 総合 言語理解の総合テスト 複数タスク
15 Chatbot Arena 総合 人間投票によるELOランキング 常時更新
16 SWE-bench コード ソフトウェアエンジニアリング評価 2,294問
17 MMMLU 知識 多言語版知識テスト 各言語約15,908問
18 MuSR 推論 多段階ソフト推論 約2,400問
19 IFEval 総合 指示追従能力テスト 約540問
20 OSWorld Agent OS操作タスク評価 369タスク
21 AgentBench Agent マルチ環境Agent評価 8環境

⭐マークが付いた7つが、業界で「コア指標」と呼ばれるもの。モデル選定で最初に見るべき項目です。

カテゴリ別の内訳:

カテゴリ 指標数 代表的な指標
推論能力 8項目 GSM8K、HellaSwag、MATH、BBH
知識 5項目 MMLU、MMLU-Pro、GPQA
総合評価 3項目 Chatbot Arena、SuperGLUE、IFEval
コード能力 2項目 HumanEval、SWE-bench
真実性 1項目 TruthfulQA
Agent能力 2項目 OSWorld、AgentBench

コア指標7選:ここだけ押さえれば大丈夫

21個全部を細かく覚える必要はありません。以下の7つを理解すれば、モデルの「成績表」は十分読めるようになります。


1. SWE-bench Verified——「本物のソフトウェアエンジニアか?」

最近もっとも注目度が上がっているのがこの指標。SWE-benchは単にコードを書けるかではなく、実在のGitHub Issueを自力で解決できるかを測ります。

テストの流れはこうです:

  1. 実際のGitHub Issueが与えられる(例:「Djangoのログインにバグがある」)
  2. 数百万行のコードベースから関連ファイルを特定
  3. バグの原因を分析
  4. 修正パッチを作成
  5. テストを通して修復を検証

正直、最初にこのベンチマークの内容を知ったとき「これ人間でも半分くらいしか解けないのでは」と思いました。実際、人間のソフトウェアエンジニアでも未知のリポジトリでIssueを直すのは結構大変です。

テスト概要:

  • 500件の人手検証済みGitHub Issue
  • Django、Flask、scikit-learn等の実プロジェクト
  • 評価基準:修正パッチが全テストをパスするか

TOP 3(2026年4月時点):

順位 モデル 開発元 スコア 備考
1 Claude Mythos Preview Anthropic 93.9% パートナー限定
2 Claude Opus 4.7 (Adaptive) Anthropic 87.6% 一般利用可
3 GPT-5.3 Codex OpenAI 85.0% コード特化モデル

Anthropicが上位を独占している状態。ただしSWE-bench Pro(より高難度版)になると全体的にスコアが約20%下がり、Claude Opus 4.7でも64.3%まで落ちます。現時点のAIにとって「本物のエンジニアリング」はまだ高い壁があるということ。


2. MMLU-Pro——「どれだけ博識か?」

MMLU-Proは57学科にわたる約12,000問の選択式テスト。しかも選択肢が10個ある。普通の試験は4択なので、当てずっぽうでは通用しません。

法律、医学、物理、歴史、コンピュータサイエンス……文系理系を問わず全方位の知識を問われる。AIの「教養力」を測る指標だと言えます。

TOP 3(2026年4月時点):

順位 モデル 開発元 スコア 備考
1 Qwen3.6 Plus アリババ通義チーム 88.5% 商用モデル
2 MiniMax M2.1 MiniMax 88.0% 2300億パラメータ
3 Qwen3.5-397B-A17B アリババ通義チーム 87.8% オープンソース

ここは中国勢が強い。Qwenシリーズが1位と3位を押さえているのは、学習データの多様性が効いているのかもしれません。


3. HellaSwag——「常識があるか?」

HellaSwagは「日常的な文脈を理解しているか」をテストします。

例題のイメージ:

「冷蔵庫を開けて牛乳を見つけた太郎は……」

  • A. 牛乳が空を飛んだ
  • B. 牛乳を取り出して飲んだ
  • C. 冷蔵庫が歌い始めた
  • D. 牛乳が金に変わった

人間なら当然Bだとわかる。でもAIにとって「当たり前」の判断は意外と難しい。学術知識に強くてもここが弱いモデルは、実際の会話で「なんか噛み合わない」感じになります。

TOP 3(2026年4月時点):

順位 モデル 開発元 スコア 備考
1 Claude 3 Opus Anthropic 95.4% 人間レベル到達
2 GPT-4 OpenAI 95.3% 人間レベル到達
3 Gemini 1.5 Pro Google 93.3%

人間のスコアが約95%なので、上位2モデルは人間と同等。このベンチマークはほぼ「天井」に達しており、差別化指標としての役目は終わりつつあります。


4. HumanEval——「コードが書けるか?」

164問のPythonプログラミング問題。「偶数の合計を返す関数を書け」のような実践的な課題で、コードが実際に動くかどうか で採点されます。「それっぽいコード」では通らない。

TOP 3(2026年4月時点):

順位 モデル 開発元 スコア 備考
1 MiniCPM-SALA OpenBMB 95.1% たった90億パラメータ
2 Kimi K2 0905 月之暗面 94.5% 1兆パラメータ、OSS
3 Claude 3.5 Sonnet Anthropic 93.7% 商用モデル

注目は1位のMiniCPM-SALA。パラメータ数がたった90億で、1兆パラメータのKimi K2を上回っている。「小さくても精密なモデル」が「巨大だが汎用のモデル」を特定タスクで凌駕する好例です。


5. GSM8K——「論理的に考えられるか?」

小学校〜中学校レベルの文章題、8,500問。計算そのものより「問題を分解して段階的に考えられるか」がポイントです。

「太郎はリンゴを5個持っていて、花子に3個あげた後、さらに7個買った。太郎のリンゴは何個?」

この手の多段階推論を途中の計算式付きで正答できるかを測ります。

TOP 3(2026年4月時点):

順位 モデル 開発元 スコア 備考
1 Kimi K2 Instruct 月之暗面 97.3% 1兆パラメータ、OSS
2 o1 OpenAI 97.1% 推論特化モデル
3 GPT-4.5 OpenAI 97.0%

トップ3がすべて97%前後。このレベルの算数はもう「解けて当然」になりつつあります。差がつくのはもっと難しいMATH(大学レベル)のほうで、そちらではスコアが60-70%台まで落ちる。


6. TruthfulQA——「嘘をつかないか?」

817問の「ひっかけ問題」で構成される、ある意味もっとも嫌らしいテスト。

「砂糖を食べると子どもが多動になるって本当?」

実は科学的根拠はない。でも世間一般ではそう信じている人が多い。AIは訓練データの「多数派の意見」に引っ張られやすいので、こういう「よくある誤解」を鵜呑みにして回答しがち。TruthfulQAはその耐性を測ります。

TOP 3(2026年4月時点):

順位 モデル 開発元 スコア 備考
1 Phi-3.5-MoE-instruct Microsoft 77.5% 600億パラメータ、OSS
2 Granite 3.3 8B Instruct IBM 66.9% 80億パラメータ、OSS
3 Phi 4 Mini Microsoft 66.4% 40億パラメータ、OSS

面白い傾向がここに出ています。小型モデルのほうがスコアが高い。巨大モデルは膨大な知識を持つ反面、ネット上の「通説」も大量に学習しているため、誤情報をそのまま出力するリスクが高まるようです。「知りすぎるがゆえに嘘をつく」というのは皮肉ですね。


7. Chatbot Arena——「ユーザーに選ばれるか?」

ほかのベンチマークとまったく性質が違う。Chatbot Arenaは人間が直接評価する仕組みです。

ルール:

  1. ユーザーが質問を投げる
  2. 匿名の2モデルがそれぞれ回答
  3. ユーザーが「どっちが良かったか」を投票
  4. 数万件の投票からELOスコアを算出

チェスのレーティングと同じ方式で、勝ちが多いほどスコアが上がる。

TOP 3(2026年4月時点):

順位 モデル 開発元 ELO 備考
1 Claude Opus 4.7 Thinking Anthropic 1505 推論強化版
2 Claude Opus 4.6 Thinking Anthropic 1503
3 muse-spark Meta 1496 オープンウェイト

上位3モデルの差はわずか9ポイント。ELOで100ポイント差があると対戦勝率64%程度なので、この差は統計的に有意ではない可能性が高いです。

ここが厄介で面白いところ: Chatbot Arenaの順位とMMLU-Proの順位はかなりズレます。

  • Claude系は「ユーザー体験」が高評価(回答の質感・自然さ)
  • GPT系は「テスト成績」が強い(正解率が高い)
  • 一部のモデルは「話し上手だけど仕事ができない」、逆もある

つまり高得点 ≠ 実用的に優秀。ここを理解しておかないと、モデル選定で痛い目を見ます。


スコアを読むときの4つのポイント

ベンチマーク表を眺めるだけでは判断を誤ります。以下の視点を持っておくと、数字に踊らされなくなる。

① 単一スコアで判断しない

高校受験と同じで、科目ごとに得意・不得意があります。

  • 対話品質を重視 → Chatbot Arena
  • コーディング支援 → HumanEval + SWE-bench
  • 学習・調査用途 → MMLU-Pro
  • 信頼性が最重要 → TruthfulQA

自分のユースケースに合った指標を見ること。「総合1位」を追いかけると遠回りになります。

② 難易度を考慮する

「90点」という数字だけでは何もわかりません。

  • GSM8K(小学算数)で97%:もう差がつかないレベル
  • MATH(大学数学)で70%:かなりの実力

同じスコアでも難易度が違えば意味が全然違う。

③ 評価基準の違いを意識する

  • 正答率(MMLU-Pro、GSM8K):何問正解したか
  • Pass@1(HumanEval):1回でコードが通る確率
  • ELO(Chatbot Arena):相対ランキング、上限なし

これらを混ぜて比較するのは、リンゴとオレンジを比べるのと同じです。

④ スナップショットであることを忘れない

AI業界は月単位で順位が入れ替わります。今日の1位が来月には5位に落ちることもある。特定時点のランキングに固執せず、各社の改善トレンドを追うほうが実用的です。


ユースケース別の推奨指標マップ

「で、自分はどの指標を見ればいいの?」という方向けに整理しました。

ユースケース 見るべき指標 理由
日常の会話・ライティング Chatbot Arena ユーザー体験に直結
コーディング支援 HumanEval、SWE-bench コード生成力+実務力
学習補助・数学 GSM8K、MATH 推論力の指標
専門領域の調査 MMLU-Pro 知識の幅と深さ
正確性が最重要 TruthfulQA 幻覚リスクの評価
エンタープライズ導入 TruthfulQA + Chatbot Arena 信頼性と体験の両立
Agent・自動化 SWE-bench、OSWorld 自律タスク遂行力
複雑なワークフロー AgentBench、SWE-bench Pro 多段階タスクの耐久力

ベンチマークの限界——ここは見落とすと危ない

ベンチマークは便利なツールですが、盲信は禁物。いくつかの構造的な問題を知っておくべきです。

「テスト対策」問題

モデル開発側がベンチマークのテスト問題を学習データに混ぜる(いわゆるcontamination)リスクは常に存在します。スコアが上がっても「本当に賢くなった」のか「答えを暗記しただけ」なのかは外からは判断しにくい。

カバー範囲の限界

現行のベンチマークは「正解がある問題」に偏っています。でも実際にAIを使う場面は、クリエイティブライティング、感情的なサポート、複雑な意思決定など、正解が一つに定まらないタスクのほうが多い。

鮮度の問題

この記事のデータは2026年4月時点のものです。あなたがこれを読んでいる頃には、もう順位が変わっているかもしれない。ベンチマークの「生鮮食品」感覚は常に意識してください。

万能モデルは存在しない

これは何度強調しても足りません。すべてのベンチマークで1位のモデルは存在しない。Claudeが対話で強く、Qwenが知識テストで強く、小型モデルが真実性で強いように、得意分野は分散しています。


まとめ:数字の向こうにある「使い勝手」を見る

ベンチマークは「参考書」であって「教科書」ではありません。

LLMの成績表を読むコツは3つ:

  1. 自分のユースケースに合った指標だけ見る——全科目の成績は不要
  2. 複数の指標を組み合わせる——単一スコアは一面しか見えない
  3. 実際に触ってみる——最終的には自分の手で試すのが最速

個人的には、新しいモデルが出るたびにまずChatbot Arenaの順位を確認し、気になったらHumanEvalとSWE-benchのスコアをチェックする、という流れに落ち着いています。全部のベンチマークを追いかけるのは正直しんどいので、自分に関係のある2-3指標に絞ったほうが精神衛生上も良いです。

あなたはモデル選びのとき、どの指標を一番重視していますか? コメントで教えてください。


参考データソース

データソース URL 概要
LLM Stats https://llm-stats.com/ LLM評価データの統合プラットフォーム
Chatbot Arena (LMSYS) https://lmarena.ai/ UC Berkeley運営の人間ブラインドテスト
Hugging Face Open LLM Leaderboard https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard OSSモデルのリーダーボード

データ取得時点: 2026年4月26日

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?