はじめに
「どのAIモデルが一番強いの?」を調べるとき、よく目にするのがベンチマークやリーダーボードだと思います。
この記事を読めば、自分に合うモデルを探しやすくなると思います。
まず:ベンチマークとリーダーボードは別物
似ているようで、実は全く別のものです。
| 何か | 例 | |
|---|---|---|
| ベンチマーク | AIの能力を測るテスト・試験そのもの | GSM8K、MMLU、SWE-bench |
| リーダーボード | ベンチマークの結果を集めてモデルをランキングしたサイト | LLM Stats、BenchLM.ai |
関係性を図にするとこうです。
【ベンチマーク】 各モデルを個別にテスト
GSM8K / MMLU / SWE-bench ...
↓ 結果を集約
【リーダーボード】 まとめてランキング化
LLM Stats / BenchLM ...
ベンチマークの基礎知識
リーダーボードの数字の意味を理解するために、代表的なベンチマークを先に押さえておきます。
推論・数学
| ベンチマーク | 内容 | 備考 |
|---|---|---|
| GSM8K | 小学校レベルの数学文章題 8,500問 | 基礎推論の定番 |
| MATH | 競技数学レベルの問題 | フロンティアモデルの差が出やすい |
| HellaSwag | 文章の続きを4択から選ぶ常識推論 | 人間は95%正解 |
| BBH | 論理・推論など23種の難問集 | 暗記では解けない設計 |
知識
| ベンチマーク | 内容 | 備考 |
|---|---|---|
| MMLU | 57分野・57,000問の4択問題 | 有名だが上位モデルは飽和気味 |
| MMLU-Pro | MMULの強化版(10択) | まだ差が出やすい |
| GPQA Diamond | 物理・化学・生物の大学院レベル超難問 | PhD保有者でも正解率65% |
コード
| ベンチマーク | 内容 | 備考 |
|---|---|---|
| HumanEval | Pythonの関数実装問題164問 | 定番だが飽和気味 |
| SWE-bench | 実際のGitHubイシューを解決できるかを評価 | 現在最も注目されている |
その他
| ベンチマーク | 内容 | 備考 |
|---|---|---|
| Chatbot Arena | 人間がAI同士を匿名で比較投票 | 実際の使用感に最も近い |
| TruthfulQA | ハルシネーション(嘘)を起こさないかを評価 | 誤解しやすい質問を集めた |
| OSWorld | PCの画面操作でタスクをこなせるか | Agent評価の代表格 |
| HLE(Humanity's Last Exam) | 専門家が作った各分野の超難問集 | 2026年にNature掲載の最難関 |
「飽和」問題に注意
ベンチマークには 飽和 という問題があります。上位モデルが軒並み90%超えになると、もはやモデル間の差がつかなくなります。
飽和しているベンチマーク(参考程度に)
- MMLU → 上位モデルが90%超えで横並び
- HumanEval → 同様に差がつきにくい
現在差が出やすいベンチマーク
- GPQA Diamond
- SWE-bench
- HLE(Humanity's Last Exam)
リーダーボードを見るときは「どのベンチマークを使っているか」にも注目すると、より正確な比較ができます。
リーダーボード:用途別おすすめ
早見表
| 用途 | おすすめサイト |
|---|---|
| とりあえず全体を把握したい | LLM Stats |
| 多数のベンチマークで細かく比較したい | BenchLM.ai |
| コスト・速度も含めて比較したい | Artificial Analysis |
| コーディング・開発者向け | Vellum LLM Leaderboard |
| 数学に特化して見たい | MathArena |
| 画像・ビジョン系に特化して見たい | Arena.ai Vision |
| オープンソースモデルだけ見たい | HuggingFace Open LLM Leaderboard |
| 学術・研究・トレンド分析 | Stanford AI Index |
各サイト詳細
LLM Stats — まず見るならここ
300以上のモデルをGPQA・SWE-Bench・価格などで比較できます。スコアが常時更新されるので「今一番強いモデルはどれ?」をサッと確認するのにぴったりです。
こんな人向け: モデル選びを始めたばかりで、まず全体感をつかみたい人
BenchLM.ai — とにかく網羅的に比較したい
222種類のベンチマーク結果を237モデルで横断比較できます。ベンチマークごとの信頼度(検証済み/未検証)も表示されるので、データの質まで気にする人に向いています。
こんな人向け: 特定のベンチマークで細かく比較したい・データの根拠まで確認したい人
Artificial Analysis — コスパで選びたい
性能だけでなく速度・レイテンシ・価格を独自に実測しています。各モデルの自己申告データに頼らないので、信頼性の高いコスト比較ができます。
こんな人向け: APIコストを抑えながらモデルを選びたい開発者
Vellum LLM Leaderboard — 開発者向け
推論・コーディング・数学・多言語タスクのベンチマークをカテゴリ別に整理して表示してくれます。価格・速度データも掲載されていて、実務でのモデル選びに使いやすいです。
こんな人向け: コーディングや実務用途でモデルを比較したい開発者
MathArena — 数学特化
AIME(全米数学招待試験)などオリンピックレベルの問題でモデルを評価するリーダーボードです。数学の強さを重視するならここ一択。
こんな人向け: 数理系タスクに使うモデルを選びたい人
Arena.ai Vision — 画像・ビジョン特化
87万票以上の人間による投票に基づくビジョンモデルランキングです。キャプション・OCR・図解など用途別フィルターもあって実用的です。
こんな人向け: 画像認識・マルチモーダル系のモデルを選びたい人
HuggingFace Open LLM Leaderboard — OSS・自前運用向け
Llama・Qwen・Mistralなど公開ウェイトのモデルに絞った評価です。自前でホストしたい・ファインチューンしたい人向けです。
こんな人向け: オープンソースモデルを使いたい・自分でホストしたい人
Stanford AI Index — 研究・トレンド分析
スタンフォード大学が年1回まとめる年次レポートです。AIのトレンドを体系的に把握したいときに重宝します。
こんな人向け: AIの動向を学術的に把握したい研究者・学生
まとめ
AIのベンチマーク・リーダーボードにはさまざまな種類があります。
目的に合ったサイトをうまく使い分けると、モデル選びがぐっとラクになります。
この記事が少しでも参考になれば嬉しいです。
ご意見・ご感想などがあれば、お気軽にコメントしてください!