8分で読める · AIモデル比較シリーズ 第2回(全4回)
前回の全体ランキングでわかったこと:Claude Opus 4.8が95点、GPT-5.5が91点、そして4モデルが4点差でひしめく。
しかし問題はここだ:全次元を制するモデルは存在しない。
Opus 4.8はコーディングで圧倒的だが、AgenticではGPT-5.5に及ばない。DeepSeek V4 Proは数学で満点を取るが、長文脈で苦戦する。本稿は全7能力次元を徹底比較する。
一、Agentic:GPT-5.5(98.0)
トップ3はGPT-5.5(98.0)> Opus 4.8(97.7)> Gemini 3.5 Flash(96.9)でわずか1.1点差。
| サブ次元 | チャンピオン | スコア | ランナーアップ | スコア |
|---|---|---|---|---|
| 端末タスク | GPT-5.5 | 82.7% | Opus 4.8 | 74.6% |
| ツールオーケストレーション | Gemini 3.5 Flash | 83.6% | Opus 4.7 | 78.0% |
| コーディングエージェント | Claude Opus 4.8 | 69.2% | GPT-5.5 | 58.6% |
GPT-5.5の強みは推論モデルとしての設計に由来する。一方、Gemini 3.5 Flashは$1.50/M入力でMCP Atlasツールオーケストレーション83.6%を達成。
二、コーディング:Claude Opus 4.8(98.9)— 圧勝
Opus 4.8は98.9点で2位に11.7点差。これは7次元中最大のリード差。
| ベンチマーク | チャンピオン | スコア | ランナーアップ | スコア |
|---|---|---|---|---|
| SWE-bench Pro | Opus 4.8 | 69.2% | GPT-5.5 | 58.6% |
| LiveCodeBench | DeepSeek V4 Pro | 93.5% | V4 Flash | 91.6% |
競技プログラミングと実世界のソフトウェア工学は別物だ。DeepSeek V4 Proは競技ベンチマークでリードするが、実課題修正ではOpus 4.8が圧倒する。
三、推論:GPT-5.5(96.9)
GPT-5.5はARC-AGI-2で**85%**を突破した唯一の汎用モデル(人間平均は66%)。DeepSeek V4 ProはPutnam数学競技で満点120/120をGPT-5.5の1/3の価格で達成。
四、知識:3強拮抗(99.3 vs 99.2 vs 97.8)
Opus 4.8(99.3)≈ GPT-5.4(99.2)≈ GPT-5.5(97.8)。この次元ではどれを選んでも差はない。
五、マルチモーダル:Gemini 3.5 Flash(80.6)— ダークホース
GPT-5.5の最大の弱点がここ:マルチモーダルスコア57.2。一方Gemini 3.5 Flashは80.6とMMMU-Pro 84.2%で圧倒。画像・動画理解が必要ならGemini一択。
六、長文脈:GPT-5.5
128Kトークンで94.8%。しかし真の差は200K以降で現れる:
- 512K-1M:GPT-5.5が74.0%、Claudeが32.2% — 2倍以上の差
七、数学:DeepSeek V4 Pro(Putnam満点120/120)
数学チャンピオンはDeepSeek V4 Pro。Putnam満点を$0.33/Mで達成。
能力別早見表
| 能力 | 最適モデル | スコア | 2位 |
|---|---|---|---|
| Agentic | GPT-5.5 | 98.0 | Opus 4.8 |
| コーディング | Opus 4.8 | 98.9 | GPT-5.4 |
| 推論 | GPT-5.5 | 96.9 | GPT-5.4 |
| 知識 | Opus 4.8 | 99.3 | GPT-5.4 |
| マルチモーダル | Gemini 3.5 Flash | 80.6 | Opus 4.8 |
| 長文脈 | GPT-5.5 | 94.8% | Opus 4.7 |
| 数学 | DeepSeek V4 Pro | 120/120 | GPT-5.5 |
次回予告
第3回はデザイン能力と価格対性能比の2次元を掘り下げる。MiniMax M3がデザイン力でOpus 4.8に次ぐ2位?価格差69倍の実態とは?
データソース:BenchLM · BuildFastWithAI
