0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AIモデル能力深掘り #2:7つの次元、最強モデルはどれ?

0
Posted at

Cover

Cover

8分で読める · AIモデル比較シリーズ 第2回(全4回)

前回の全体ランキングでわかったこと:Claude Opus 4.8が95点、GPT-5.5が91点、そして4モデルが4点差でひしめく。

しかし問題はここだ:全次元を制するモデルは存在しない

Opus 4.8はコーディングで圧倒的だが、AgenticではGPT-5.5に及ばない。DeepSeek V4 Proは数学で満点を取るが、長文脈で苦戦する。本稿は全7能力次元を徹底比較する。


一、Agentic:GPT-5.5(98.0)

トップ3はGPT-5.5(98.0)> Opus 4.8(97.7)> Gemini 3.5 Flash(96.9)でわずか1.1点差。

サブ次元 チャンピオン スコア ランナーアップ スコア
端末タスク GPT-5.5 82.7% Opus 4.8 74.6%
ツールオーケストレーション Gemini 3.5 Flash 83.6% Opus 4.7 78.0%
コーディングエージェント Claude Opus 4.8 69.2% GPT-5.5 58.6%

GPT-5.5の強みは推論モデルとしての設計に由来する。一方、Gemini 3.5 Flashは$1.50/M入力でMCP Atlasツールオーケストレーション83.6%を達成。


二、コーディング:Claude Opus 4.8(98.9)— 圧勝

Opus 4.8は98.9点で2位に11.7点差。これは7次元中最大のリード差。

ベンチマーク チャンピオン スコア ランナーアップ スコア
SWE-bench Pro Opus 4.8 69.2% GPT-5.5 58.6%
LiveCodeBench DeepSeek V4 Pro 93.5% V4 Flash 91.6%

競技プログラミングと実世界のソフトウェア工学は別物だ。DeepSeek V4 Proは競技ベンチマークでリードするが、実課題修正ではOpus 4.8が圧倒する。


三、推論:GPT-5.5(96.9)

GPT-5.5はARC-AGI-2で**85%**を突破した唯一の汎用モデル(人間平均は66%)。DeepSeek V4 ProはPutnam数学競技で満点120/120をGPT-5.5の1/3の価格で達成。


四、知識:3強拮抗(99.3 vs 99.2 vs 97.8)

Opus 4.8(99.3)≈ GPT-5.4(99.2)≈ GPT-5.5(97.8)。この次元ではどれを選んでも差はない。


五、マルチモーダル:Gemini 3.5 Flash(80.6)— ダークホース

GPT-5.5の最大の弱点がここ:マルチモーダルスコア57.2。一方Gemini 3.5 Flashは80.6とMMMU-Pro 84.2%で圧倒。画像・動画理解が必要ならGemini一択。


六、長文脈:GPT-5.5

128Kトークンで94.8%。しかし真の差は200K以降で現れる:

  • 512K-1M:GPT-5.5が74.0%、Claudeが32.2% — 2倍以上の差

七、数学:DeepSeek V4 Pro(Putnam満点120/120)

数学チャンピオンはDeepSeek V4 Pro。Putnam満点を$0.33/Mで達成。


能力別早見表

能力 最適モデル スコア 2位
Agentic GPT-5.5 98.0 Opus 4.8
コーディング Opus 4.8 98.9 GPT-5.4
推論 GPT-5.5 96.9 GPT-5.4
知識 Opus 4.8 99.3 GPT-5.4
マルチモーダル Gemini 3.5 Flash 80.6 Opus 4.8
長文脈 GPT-5.5 94.8% Opus 4.7
数学 DeepSeek V4 Pro 120/120 GPT-5.5

次回予告

第3回はデザイン能力価格対性能比の2次元を掘り下げる。MiniMax M3がデザイン力でOpus 4.8に次ぐ2位?価格差69倍の実態とは?


データソース:BenchLM · BuildFastWithAI

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?