2026年2月から3月にかけて、OpenAI・Anthropic・Googleがフラッグシップモデルを相次いで更新しました。Claude Opus 4.6(2月5日)、Gemini 3.1 Pro(2月19日、Preview)、GPT-5.4(3月5日)。それぞれ異なるベンチマークで最高スコアを記録し、「どれが最強か」は一概に言えない状況です。
本記事では、ベンチマーク・価格・ユースケースの3軸で整理し、MiniMax M2.5がもたらすコモディティ化の衝撃、ペルソナ別の選定基準まで踏み込みます。
なぜ3社が短期間に更新したのか
2026年2-3月の相次ぐ更新は偶然ではありません。各社の戦略的意図を読み解くと、競争構造が見えてきます。
OpenAI: エージェント市場の制空権
OpenAIはGPT-5.4でOSWorld-Verifiedベンチマーク75.0%を達成しました。人間のベースライン72.4%を超えた初のモデルです。これはChatGPTの「対話AI」イメージから脱却し、GUI操作・マルチステップワークフローを自律実行できる「エージェント基盤」へ転換する意思表示です。
miniモデルのChatGPT Free/Go開放も戦略的です。開発者の裾野を広げ、エコシステムのロックインを狙っています(nanoはAPI専用です)。
Anthropic: 開発者ツールチェーンの独占
Claude Opus 4.6のリリース前後で、Claude Code Channels(Discord/Telegram連携)やCowork Projects + Dispatch機能が発表されたとする報告があります(Anthropic公式ブログでの一次ソースは要確認)。SWE-bench 75.6%という数値は「コーディングならClaude」というポジションの強化です。
Anthropicの戦略は、APIの性能だけでなく、Claude Codeを軸とした開発者体験全体を囲い込むことにあります。
Google: Workspace統合による実務浸透
Gemini 3.1 Pro(Preview)はARC-AGI-2で77.1%を達成しつつ、価格を据え置きました。$2/$12という価格は競合の半額以下です。Googleの武器はモデル性能ではなく、Docs・Sheets・Slides・Driveとのネイティブ統合です。
Gemini in Google Sheetsを使ったSpreadsheetBenchで70.48%(SOTA)を記録しています。ただしこれはモデル単体の性能ではなく、Google Sheetsとの統合環境での成果である点に注意が必要です。「既にGoogleを使っている企業」が追加コストなしでAIを導入できる導線を整えています。
3社ともに「モデル単体の性能」ではなく「エコシステム全体の体験」で差別化を図っています。モデル選定は、自社の既存ツールチェーンとの相性を最初に検討すべきです。
基本スペック比較
| 項目 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| 提供元 | OpenAI | Anthropic | |
| リリース時期 | 2026年3月5日 | 2026年2月5日 | 2026年2月19日(Preview) |
| コンテキスト長 | 272K tokens(1M実験的) | 200K(1M beta) | 1M tokens(GA) |
| 最大出力トークン | 非公開 | 128K tokens | 64K tokens |
| 入力単価/MTok | $2.50(gpt-5.4) | $5 | $2 |
| 出力単価/MTok | $15(gpt-5.4) | $25 | $12 |
| 無料枠 | mini: ChatGPT Free/Go, nano: APIのみ | なし | Geminiアプリは無料利用可(API無料枠はなし) |
| バリアント | Standard/Thinking/Pro | Opus 4.6/Sonnet 4.6 | Pro/Flash-Lite |
| 主な統合先 | ChatGPT, API | Claude Code, API | Workspace連携 |
GPT-5.4の価格はgpt-5.4が入力$2.50/M・出力$15/M、上位のgpt-5.4-proが入力$30/M・出力$180/Mです。GPT-5.4の1Mトークンコンテキストは現時点ではCodexでの実験的サポートであり、標準は272Kです。Gemini 3.1 Proは現状Preview版です。
ベンチマーク比較
SWE-bench Verified(コーディング)
SWE-benchは、実在のOSSプロジェクトのバグを自動修正する能力を測定します。GitHubのIssueを読み、原因を特定し、正しいパッチを生成するまでの一連の工程が評価対象です。
| モデル | SWE-bench Verified | 前世代からの伸び |
|---|---|---|
| Claude Opus 4.6 | 80.8%(単一試行) | Opus 4: 72.0% → +8.8pt |
| Gemini 3.1 Pro | 80.6%(単一試行) | 3.0 Pro: 約63% → +17pt |
| GPT-5.4 | 未公開 | ー |
80%超えの意味: Googleのモデルカードによると、単一試行(single attempt)条件でClaude Opus 4.6が80.8%、Gemini 3.1 Proが80.6%とほぼ同等のスコアを記録しています。2025年3月時点のSOTAは約49%であり、1年で30pt以上の向上です。5件のバグのうち4件を自動修正できる水準で、「コードレビューの初期段階をAIに任せる」運用が現実的になっています。
SWE-benchのスコアは「ツール利用あり(scaffolding)」の条件で大きく変動します。上記の80%台のスコアは単一試行条件での数値です。また、Anthropicが公式に発表している75.6%はClaude Codeとの組み合わせでの数値であり、素のAPIだけで同じ結果が出るとは限りません。測定条件の違いに注意してください。
ARC-AGI-2(抽象推論)
ARC-AGI-2は、抽象的なパターン認識能力を測るベンチマークです。人間には直感的に解ける問題が多い一方、LLMには難易度が高いとされています。
| モデル | ARC-AGI-2 | 前世代からの伸び |
|---|---|---|
| Gemini 3.1 Pro | 77.1% | 3.0 Pro: 約55% → +22pt |
| Claude Opus 4.6 | 未公開 | ー |
| GPT-5.4 | 未公開 | ー |
77.1%の意味: ARC-AGI-2は2025年時点でどのモデルも60%を超えられなかったベンチマークです。なお、ARC-AGI-2における人間の平均テスト参加者スコアは約60%であり、85%はARC Prize側が設定した目標値です。77.1%は人間の平均参加者スコアを大きく上回る数値で、「見たことのないパターンへの汎化能力」が大幅に改善したことを示します。
OSWorld-Verified(GUI操作・エージェント)
OSWorld-Verifiedは、GUIを操作してタスクを遂行する能力を測定します。「ブラウザでフォームに入力する」「アプリ間でデータをコピーする」といった、人間が日常的に行う操作が評価対象です。
| モデル | OSWorld-Verified | 人間ベースラインとの比較 |
|---|---|---|
| GPT-5.4 | 75.0% | 人間: 72.4%(超過) |
| Claude Opus 4.6 | 未公開 | ー |
| Gemini 3.1 Pro | 未公開 | ー |
75.0%の意味: 人間のベースラインを超えた初のモデルです。2025年3月時点では最高でも約30%台でした。1年で40pt以上の向上であり、「AIがPCを操作する」ユースケースが実用段階に入ったことを意味します。
ベンチマーク総括
| ベンチマーク | トップモデル | スコア | 2025年3月SOTA | 1年間の伸び |
|---|---|---|---|---|
| SWE-bench Verified(単一試行) | Claude Opus 4.6 / Gemini 3.1 Pro | 80.8% / 80.6% | 約49% | +30pt以上 |
| ARC-AGI-2 | Gemini 3.1 Pro | 77.1% | 約55% | +22pt以上 |
| OSWorld-Verified | GPT-5.4 | 75.0% | 約35% | +40pt以上 |
SWE-benchではClaudeとGeminiがほぼ同等、推論ではGemini、GUI操作ではGPTがリードする構図です。ただし共通して言えるのは、2025年3月と比較して全領域で劇的な性能向上が起きているということです。
ベンチマークのスコアは各社の公式発表に基づきます。測定条件(プロンプト設計、few-shot数、ツール利用の有無など)が異なるため、スコアの単純な横比較には限界があります。
実際のユースケースでの体感差
ベンチマークだけでは分からない、実務での使い分けを整理します。
コードレビュー・バグ修正
Claude Opus 4.6が最も強い領域です。 Claude Codeとの統合により、リポジトリ全体のコンテキストを理解した上でレビューできます。特に以下の点で差が出ます。
- 「このPRは既存のテストに影響するか」の判断精度が高い
- 128Kトークンの出力枠があるため、大規模なリファクタリング提案も途切れない
- Cowork Projects機能で、非同期にコードレビューを依頼できる
GPT-5.4もコーディング能力は高いですが、SWE-benchスコアが公式発表されていないため直接比較はできません。なおGemini 3.1 ProはSWE-bench単一試行でClaude Opus 4.6とほぼ同等のスコア(80.6%)を記録しています。
長文の要約・分析
Gemini 3.1 Proが最も有利です。 1Mトークンのコンテキストが正式提供(GA)されているため、100ページ超の文書を一括投入できます。
GPT-5.4の標準コンテキストは272Kで、1MはCodexでの実験的サポートです。Claude Opus 4.6も1M対応していますがベータ段階です。長文処理の安定性を重視するなら、Gemini 3.1 Proが堅い選択です。
GUI操作・ブラウザ自動化
GPT-5.4の独壇場です。 OSWorld-Verifiedで人間超えのスコアを出しており、Webフォームの入力、アプリ間のデータ転送、スクリーンショットからの情報抽出といったタスクで最も高い精度を発揮します。
Google Workspaceとの連携
Gemini 3.1 Pro一択です。 Sheets・Docs・Slides・Driveとネイティブ統合されており、「スプレッドシートのデータを分析してスライドにまとめる」といったワークフローをシームレスに実行できます。前述の通り、Gemini in Google SheetsによるSpreadsheetBenchで70.48%(SOTA)を記録しています(統合環境での成果であり、モデル単体のスコアではありません)。
大量データのバッチ処理
Gemini 3.1 Proがコスト面で圧倒的です。 入力$2/MTokは、Claude Opus 4.6の2.5分の1。1日に数百万トークンを処理するバッチ処理では、月額コストに数倍の差が出ます。
MiniMax M2.5の衝撃
3大モデルの比較記事で見落とされがちですが、MiniMax M2.5の存在はLLM市場の構造を変える可能性があります。
何が起きているのか
MiniMax M2.5は、一部のベンチマークでClaude Opus 4.6と同等のスコアを記録しつつ、大幅に低い価格で提供されています。
なぜそれが可能なのか
MiniMax M2.5はMoE(Mixture of Experts)アーキテクチャを採用していると推測されます(公式にはアーキテクチャの詳細が十分に開示されていないため、確定情報ではありません)。MoEの基本的な仕組みは以下の通りです。
- モデル内部に複数の「専門家(Expert)」ネットワークを配置する
- 入力に応じて、関連する少数のExpertだけを活性化する
- 全パラメータを毎回計算する必要がないため、推論コストが大幅に下がる
DeepSeek V4(1兆パラメータ、アクティブ320億)やMistral Small 4(119Bパラメータ)も同様のアプローチです。MoEはもはや実験的技術ではなく、コスト効率化の標準手法になっています。
3大モデルとの使い分け
| 観点 | 3大モデル | MiniMax M2.5等の新興モデル |
|---|---|---|
| ベンチマーク性能 | トップクラス | 同等~やや劣る |
| API価格 | 高い | 大幅に安い |
| エコシステム | 成熟(SDK・ツール・ドキュメント) | 発展途上 |
| SLA・信頼性 | 高い | 未知数 |
| ドキュメント | 豊富 | 限定的 |
| 日本語対応 | 高品質 | モデルによる |
MiniMax M2.5のベンチマーク性能は印象的ですが、エコシステムの成熟度、日本語品質、SLAの安定性は3大モデルに及びません。コスト削減のために採用する場合は、本番投入前に自社データでの品質検証を必ず行ってください。
コモディティ化がもたらす構造変化
1年間のコスト推移
同等性能のモデルの利用コストを比較すると、2025年3月→2026年3月でおおよそ10分の1に低下しています。
| 時期 | GPT-4クラスの入力単価/MTok | 備考 |
|---|---|---|
| 2024年3月 | $10〜$30 | GPT-4 Turbo(入力$10/M、出力$30/M) |
| 2025年3月 | $5〜$15 | GPT-4o, Claude 3 Opus |
| 2026年3月 | $2〜$5 | Gemini 3.1 Pro, GPT-5.4, Claude Opus 4.6 |
「どのモデルでもいい」時代は来るのか
結論から言うと、まだ来ていません。ただし、近づいています。
既に差がない領域: 一般的なテキスト生成、要約、翻訳。どのモデルを使っても実用上の差はほぼありません。
まだ差がある領域: コーディング(Claude有利)、GUI操作(GPT有利)、推論(Gemini有利)。得意領域の差は明確に残っています。
差の本質が変わった領域: モデル性能よりもエコシステムの差が大きくなっています。Claude CodeのCLI体験、GoogleのWorkspace統合、ChatGPTのプラグイン群。「どのモデルを使うか」よりも「どのエコシステムに乗るか」が選定の実質的な判断基準です。
API互換レイヤーの重要性
コモディティ化が進むほど、モデル切り替えの容易さが重要になります。
LiteLLM、OpenRouter、AWS Bedrockのような抽象化レイヤーを挟むことで、モデル固有のAPIに依存しないアーキテクチャを構築できます。「今はGeminiだが、来月Claudeに切り替えたい」という判断を、コード変更なしで実行できる設計です。
モデルを直接呼び出すハードコーディングは、今後のコモディティ化を考えると避けるべきです。少なくともモデル名・エンドポイントは設定ファイルで外出しし、切り替え可能な設計にしておくことを推奨します。
ペルソナ別の推奨構成
個人開発者(月額 $20〜$50)
| 用途 | 推奨 | 理由 |
|---|---|---|
| メインの開発 | Claude Sonnet 4.6 | Claude Codeの無料枠内。コーディング品質が高い |
| 調べ物・要約 | Gemini 3.1 Pro | Geminiアプリは無料利用可。1Mコンテキストで長文対応 |
| GUI自動化 | GPT-5.4 mini | ChatGPT Free/Goで利用可。OSWorld-Verified系タスクに強い |
月$20〜$50の予算なら、Claude ProまたはChatGPT Plusのどちらか1つに課金し、残りは無料枠で補う形が現実的です。
スタートアップ(月額 $500〜$5,000)
| 用途 | 推奨 | 理由 |
|---|---|---|
| プロダクトのAI機能 | Gemini 3.1 Pro API | $2/$12で最もコスパが良い |
| 社内の開発効率化 | Claude Opus 4.6 | SWE-bench最高スコア。Claude Codeとの統合 |
| バッチ処理・分類 | MiniMax M2.5 | 低コストで大量処理。品質検証は必須 |
コスト感度が高いスタートアップでは、用途ごとにモデルを使い分けるマルチモデル構成が有効です。API互換レイヤーを挟み、切り替えコストを最小化してください。
大企業のエンタープライズ利用(月額 $50,000〜)
| 用途 | 推奨 | 理由 |
|---|---|---|
| Workspace連携 | Gemini 3.1 Pro | ネイティブ統合。既存のGoogle環境を活用 |
| コード品質管理 | Claude Opus 4.6 | 128K出力。大規模リファクタリング対応 |
| エージェント基盤 | GPT-5.4 Pro | GUI操作の精度。マルチステップワークフロー |
| SLA・コンプライアンス | 3社すべて検討 | 契約条件・データ所在地・監査対応で判断 |
エンタープライズでは、性能やコストよりもSLA・データガバナンス・既存システムとの統合が優先事項です。3社ともエンタープライズ契約を提供しているため、要件定義をした上でPoCを実施することを推奨します。
まとめ
2026年3月時点の状況を整理します。
性能面: SWE-benchではClaudeとGeminiがほぼ同等(80%台)、推論はGemini、GUI操作はGPTが強い。1年前と比較して全領域で劇的に性能が向上しています。
コスト面: Gemini 3.1 Proが最安。MiniMax M2.5のような新興モデルがさらに価格を下げています。前年比10分の1のコスト削減が続いています。
選定基準: モデル性能の差が縮小し、エコシステムとの相性が選定の主要因になっています。Claude Code、Google Workspace、ChatGPTプラグインのどれが自社のワークフローに合うかで判断すべきです。
アーキテクチャ: モデル固定ではなく、API互換レイヤーを挟んだ切り替え可能な設計を推奨します。半年後にはまた前提が変わります。