0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AIリーダーボードガイド— 用途別おすすめサイトまとめ

0
Last updated at Posted at 2026-05-29

はじめに

「どのAIモデルが一番強いの?」を調べるとき、よく目にするのがベンチマークリーダーボードだと思います。

この記事を読めば、自分に合うモデルを探しやすくなると思います。


まず:ベンチマークとリーダーボードは別物

似ているようで、実は全く別のものです。

何か
ベンチマーク AIの能力を測るテスト・試験そのもの GSM8K、MMLU、SWE-bench
リーダーボード ベンチマークの結果を集めてモデルをランキングしたサイト LLM Stats、BenchLM.ai

関係性を図にするとこうです。

【ベンチマーク】        各モデルを個別にテスト
GSM8K / MMLU / SWE-bench ...
         ↓ 結果を集約
【リーダーボード】      まとめてランキング化
LLM Stats / BenchLM ...

ベンチマークの基礎知識

リーダーボードの数字の意味を理解するために、代表的なベンチマークを先に押さえておきます。

推論・数学

ベンチマーク 内容 備考
GSM8K 小学校レベルの数学文章題 8,500問 基礎推論の定番
MATH 競技数学レベルの問題 フロンティアモデルの差が出やすい
HellaSwag 文章の続きを4択から選ぶ常識推論 人間は95%正解
BBH 論理・推論など23種の難問集 暗記では解けない設計

知識

ベンチマーク 内容 備考
MMLU 57分野・57,000問の4択問題 有名だが上位モデルは飽和気味
MMLU-Pro MMULの強化版(10択) まだ差が出やすい
GPQA Diamond 物理・化学・生物の大学院レベル超難問 PhD保有者でも正解率65%

コード

ベンチマーク 内容 備考
HumanEval Pythonの関数実装問題164問 定番だが飽和気味
SWE-bench 実際のGitHubイシューを解決できるかを評価 現在最も注目されている

その他

ベンチマーク 内容 備考
Chatbot Arena 人間がAI同士を匿名で比較投票 実際の使用感に最も近い
TruthfulQA ハルシネーション(嘘)を起こさないかを評価 誤解しやすい質問を集めた
OSWorld PCの画面操作でタスクをこなせるか Agent評価の代表格
HLE(Humanity's Last Exam) 専門家が作った各分野の超難問集 2026年にNature掲載の最難関

「飽和」問題に注意

ベンチマークには 飽和 という問題があります。上位モデルが軒並み90%超えになると、もはやモデル間の差がつかなくなります。

飽和しているベンチマーク(参考程度に)

  • MMLU → 上位モデルが90%超えで横並び
  • HumanEval → 同様に差がつきにくい

現在差が出やすいベンチマーク

  • GPQA Diamond
  • SWE-bench
  • HLE(Humanity's Last Exam)

リーダーボードを見るときは「どのベンチマークを使っているか」にも注目すると、より正確な比較ができます。


リーダーボード:用途別おすすめ

早見表

用途 おすすめサイト
とりあえず全体を把握したい LLM Stats
多数のベンチマークで細かく比較したい BenchLM.ai
コスト・速度も含めて比較したい Artificial Analysis
コーディング・開発者向け Vellum LLM Leaderboard
数学に特化して見たい MathArena
画像・ビジョン系に特化して見たい Arena.ai Vision
オープンソースモデルだけ見たい HuggingFace Open LLM Leaderboard
学術・研究・トレンド分析 Stanford AI Index

各サイト詳細

LLM Stats — まず見るならここ

300以上のモデルをGPQA・SWE-Bench・価格などで比較できます。スコアが常時更新されるので「今一番強いモデルはどれ?」をサッと確認するのにぴったりです。

こんな人向け: モデル選びを始めたばかりで、まず全体感をつかみたい人


BenchLM.ai — とにかく網羅的に比較したい

222種類のベンチマーク結果を237モデルで横断比較できます。ベンチマークごとの信頼度(検証済み/未検証)も表示されるので、データの質まで気にする人に向いています。

こんな人向け: 特定のベンチマークで細かく比較したい・データの根拠まで確認したい人


Artificial Analysis — コスパで選びたい

性能だけでなく速度・レイテンシ・価格を独自に実測しています。各モデルの自己申告データに頼らないので、信頼性の高いコスト比較ができます。

こんな人向け: APIコストを抑えながらモデルを選びたい開発者


Vellum LLM Leaderboard — 開発者向け

推論・コーディング・数学・多言語タスクのベンチマークをカテゴリ別に整理して表示してくれます。価格・速度データも掲載されていて、実務でのモデル選びに使いやすいです。

こんな人向け: コーディングや実務用途でモデルを比較したい開発者


MathArena — 数学特化

AIME(全米数学招待試験)などオリンピックレベルの問題でモデルを評価するリーダーボードです。数学の強さを重視するならここ一択。

こんな人向け: 数理系タスクに使うモデルを選びたい人


Arena.ai Vision — 画像・ビジョン特化

87万票以上の人間による投票に基づくビジョンモデルランキングです。キャプション・OCR・図解など用途別フィルターもあって実用的です。

こんな人向け: 画像認識・マルチモーダル系のモデルを選びたい人


HuggingFace Open LLM Leaderboard — OSS・自前運用向け

Llama・Qwen・Mistralなど公開ウェイトのモデルに絞った評価です。自前でホストしたい・ファインチューンしたい人向けです。

こんな人向け: オープンソースモデルを使いたい・自分でホストしたい人


Stanford AI Index — 研究・トレンド分析

スタンフォード大学が年1回まとめる年次レポートです。AIのトレンドを体系的に把握したいときに重宝します。

こんな人向け: AIの動向を学術的に把握したい研究者・学生


まとめ

AIのベンチマーク・リーダーボードにはさまざまな種類があります。
目的に合ったサイトをうまく使い分けると、モデル選びがぐっとラクになります。

この記事が少しでも参考になれば嬉しいです。
ご意見・ご感想などがあれば、お気軽にコメントしてください!

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?