8分で読める · AIモデル比較シリーズ 第1回(全4回)
誰がトップ?その差は?
2026年第2四半期、AI大規模言語モデル業界は未曾有の高密度イテレーション期に突入した。わずか11週間のうちに、OpenAI、Anthropic、Google、DeepSeek、MiniMaxが相次いでフラッグシップモデルをリリースし、「三強鼎立+オープンソースの台頭」という競争構図が形成された。
本稿は4回シリーズの第1回目。BenchLM総合スコアとArena Eloの人間嗜好評価の2軸から、2026年6月時点の8大AIモデルの全体像を描き出す。
一、3つの評価体系、1つの物差し
ランキングの前に、使用する3つの評価ツールを理解しよう:
📊 BenchLM — 237のベンチマークテストの加重集計スコア。Agentic(22%)、Coding(20%)、Reasoning(17%)など8次元をカバー。0-100点。現時点で最も包括的な客観評価システム。
🏟️ Arena Elo — LMSYS Chatbot Arenaの600万+人の匿名ブラインド投票に基づく、標準テストではなく実際の人間嗜好を反映。
両方を組み合わせることで、「試験のでき」(BenchLM)と「使い心地」(Arena Elo)の両方を見ることができる。
二、BenchLM総合ランキング:3つのティア
第1ティア(91-95点):フラッグシップ対決
| モデル | BenchLM | 最強次元 |
|---|---|---|
| Claude Opus 4.8 🥇 | 95 | Coding 98.9, Knowledge 99.3 |
| GPT-5.5 | 91 | Agentic 98.0, Reasoning 96.9 |
- Opus 4.8が4ポイント差でリード。Coding 98.9はGPT-5.5を約15ポイント上回る
- しかしGPT-5.5はAgent能力と長文脈検索で逆転
- 結論:コーディングはOpus、AgentはGPT
第2ティア(85-89点):各社の強み
| モデル | スコア | 核心ポジショニング |
|---|---|---|
| GPT-5.4 | 89 | 知識・推論特化、Reasoning 95.6 |
| Gemini 3.5 Flash | 87 | Agent+マルチモーダルのダークホース |
| DeepSeek V4 Pro (Max) | 87 | MITオープンソース旗艦、LiveCodeBench 93.5 |
| Claude Opus 4.7 (Adaptive) | 85 | 人間嗜好No.1、Arena #3 |
- 4モデルがわずか4ポイント差。絶対スコアより価格とエコシステムが重要
- Gemini 3.5 Flashは$1.50/M入力でAgentic 96.9を達成、「Flash=妥協」の常識を打破
第3ティア(57-76点):ニッチ領域の王者
| モデル | スコア | 一言ポジショニング |
|---|---|---|
| MiniMax M3 | 76 | 新興チャレンジャー、重み未公開 |
| DeepSeek V4 Flash | 57 | 究極のコスパ、313.2点/$ |
三、Arena Elo:人間の嗜好が語る
最も直感に反する発見:Opus 4.7(#3, 1491)がOpus 4.8(#7, 1479)より上位。
これはOpus 4.7が優れているからではない。理由は:
- 投票数の不足 — Opus 4.8は公開から約12日(Opus 4.7は11,000+票)
- Elo収束の遅延 — Bradley-Terryシステムは安定化に4-8週間必要
- Thinking版の混乱 — 4.8のThinking版はまだ広く展開されていない
標準ベンチマークではOpus 4.8が総合的にリード:SWE-bench Pro 69.2% vs 64.3%、BenchLM 95 vs 85。
| モデルタイプ | 代表例 | 選定シグナル |
|---|---|---|
| Arena友好型 ↑ | DeepSeek V4 Flash(+22)、MiniMax M3(+5) | 対話型アプリに最適 |
| BenchLM友好型 ↓ | GPT-5.5(-6)、Opus 4.8(-5) | バッチ処理に最適 |
| 高一致性 ≈ | DeepSeek V4 Pro(-3)、GPT-5.4(+4) | 選定データが最も信頼性高い |
核心結論: BenchLMは「能力上限」(最適推論条件でのピーク性能)、Arena Eloは「日常体験」(カジュアルな会話での人間の嗜好)を測定する。両者の乖離の方向自体が選定シグナルとなる。
次回予告
第2回では 7つの能力次元(Agentic、Coding、Reasoning、Knowledge、マルチモーダル、長文脈、数学)を詳細に分解——各次元のトップモデルとランナーアップ、その差は?
データソース:BenchLM Leaderboard · lmmarketcap Arena Elo · BuildFastWithAI
