AIモデル能力深掘り #2：7つの次元、最強モデルはどれ？

Posted at 2026-06-10

8分で読める · AIモデル比較シリーズ第2回（全4回）

前回の全体ランキングでわかったこと：Claude Opus 4.8が95点、GPT-5.5が91点、そして4モデルが4点差でひしめく。

しかし問題はここだ：全次元を制するモデルは存在しない。

Opus 4.8はコーディングで圧倒的だが、AgenticではGPT-5.5に及ばない。DeepSeek V4 Proは数学で満点を取るが、長文脈で苦戦する。本稿は全7能力次元を徹底比較する。

一、Agentic：GPT-5.5（98.0）

トップ3はGPT-5.5（98.0）> Opus 4.8（97.7）> Gemini 3.5 Flash（96.9）でわずか1.1点差。

サブ次元	チャンピオン	スコア	ランナーアップ	スコア
端末タスク	GPT-5.5	82.7%	Opus 4.8	74.6%
ツールオーケストレーション	Gemini 3.5 Flash	83.6%	Opus 4.7	78.0%
コーディングエージェント	Claude Opus 4.8	69.2%	GPT-5.5	58.6%

GPT-5.5の強みは推論モデルとしての設計に由来する。一方、Gemini 3.5 Flashは$1.50/M入力でMCP Atlasツールオーケストレーション83.6%を達成。

Opus 4.8は98.9点で2位に11.7点差。これは7次元中最大のリード差。

ベンチマーク	チャンピオン	スコア	ランナーアップ	スコア
SWE-bench Pro	Opus 4.8	69.2%	GPT-5.5	58.6%
LiveCodeBench	DeepSeek V4 Pro	93.5%	V4 Flash	91.6%

競技プログラミングと実世界のソフトウェア工学は別物だ。DeepSeek V4 Proは競技ベンチマークでリードするが、実課題修正ではOpus 4.8が圧倒する。

GPT-5.5はARC-AGI-2で**85%**を突破した唯一の汎用モデル（人間平均は66%）。DeepSeek V4 ProはPutnam数学競技で満点120/120をGPT-5.5の1/3の価格で達成。

Opus 4.8（99.3）≈ GPT-5.4（99.2）≈ GPT-5.5（97.8）。この次元ではどれを選んでも差はない。

GPT-5.5の最大の弱点がここ：マルチモーダルスコア57.2。一方Gemini 3.5 Flashは80.6とMMMU-Pro 84.2%で圧倒。画像・動画理解が必要ならGemini一択。

128Kトークンで94.8%。しかし真の差は200K以降で現れる：

数学チャンピオンはDeepSeek V4 Pro。Putnam満点を$0.33/Mで達成。

能力	最適モデル	スコア	2位
Agentic	GPT-5.5	98.0	Opus 4.8
コーディング	Opus 4.8	98.9	GPT-5.4
推論	GPT-5.5	96.9	GPT-5.4
知識	Opus 4.8	99.3	GPT-5.4
マルチモーダル	Gemini 3.5 Flash	80.6	Opus 4.8
長文脈	GPT-5.5	94.8%	Opus 4.7
数学	DeepSeek V4 Pro	120/120	GPT-5.5

第3回はデザイン能力と価格対性能比の2次元を掘り下げる。MiniMax M3がデザイン力でOpus 4.8に次ぐ2位？価格差69倍の実態とは？

データソース：BenchLM · BuildFastWithAI