NECソリューションイノベータ株式会社

😅 勘違いしていた、GPT-5.4-Codexは存在しなかった — 調べて分かったCodex統合の全貌

Last updated at 2026-04-07Posted at 2026-04-06

📌 何を勘違いしていたのか

GPT-5.3-Codexの次は当然「GPT-5.4-Codex」が出るものだと思っていました。

Codexシリーズはバージョンごとに順当に進化してきたし、コーディング特化モデルの需要は増す一方。次のCodexも当然来るだろう、と。

来ませんでした。

GPT-5.4のリリースノートを読んで気づいたのですが、OpenAIはCodexを独立モデルとして出すのをやめ、汎用モデル本体に統合していたのです。つまりGPT-5.3-Codexが「最後のCodex」。

これは結構大きな方針転換なのに、あまり騒がれていない気がします。気になったので徹底的に調べてみました。

🪦 Codexはどこへ行ったのか

Codex系譜を振り返る

GPT-5.2 ─── GPT-5.2-Codex
  │
  ├─ 2026/02/05 → GPT-5.3-Codex 🔚 ← これが最後
  │    └─ 2026/02/12 → GPT-5.3-Codex-Spark（高速版）
  │
  └─ 2026/03/05 → GPT-5.4 🔀 ← Codex能力を本体に吸収
       ├─ GPT-5.4 Thinking
       ├─ GPT-5.4 Pro
       ├─ GPT-5.4 Mini（03/17）
       └─ GPT-5.4 Nano（03/17）

OpenAIの公式見解

GPT-5.4の発表で、OpenAIはこう書いています：

GPT-5.4は「GPT-5.3-Codexのフロンティアコーディング能力を統合した初の汎用推論モデル」である

要するに、コーディング能力が汎用モデルに十分取り込めるレベルに達したから、専用モデルを分ける必要がなくなった、ということです。

考えてみれば自然な流れかもしれません。コーディング・推論・PC操作を1つのモデルでこなせるなら、ユーザーがモデルを使い分ける手間がなくなる。でも、「本当にCodexと同等以上なの？」という疑問は残ります。

📊 じゃあGPT-5.4のコーディング力はCodexを超えたのか？

ここが一番気になったところです。調べた結果を正直に書きます。

🏆 ベンチマーク対決

ベンチマーク	GPT-5.4	GPT-5.3-Codex	🥇 勝者	差分
SWE-Bench Pro（実世界バグ修正）	57.7%	55.6%	GPT-5.4	+2.1pt
Terminal-Bench 2.0（ターミナル操作）	75.1%	77.3%	GPT-5.3-Codex	+2.2pt
Toolathlon（ツール使用）	54.6%	51.9%	GPT-5.4	+2.7pt
BrowseComp（ブラウジング）	82.7%	77.3%	GPT-5.4	+5.4pt
OSWorld-Verified（PC操作）	75.0%	64.7%	GPT-5.4	+10.3pt
GDPval（知識業務）	83.0%	—	GPT-5.4	—

GPT-5.4の5勝1敗。 正直、思っていたより差がありました。統合モデルが専用モデルをここまで上回るとは。

🖥️ 特にヤバいのがPC操作

OSWorld-Verifiedのスコアが衝撃的でした：

人間のベースライン：72.4%
GPT-5.4：75.0% ← 🎉 人間超え
GPT-5.3-Codex：64.7%
GPT-5.2：47.3%

AIが人間よりうまくコンピュータを操作する時代。 ブラウザ操作やデスクトップアプリの自動化で人間を超えたのは史上初です。これはCodex時代にはなかった能力で、汎用モデル統合の恩恵と言えます。

⌨️ ただしターミナル操作だけはCodexが上

Terminal-Bench 2.0（SSH、CLIデバッグ、git操作、ビルドシステム）ではGPT-5.3-Codexがまだ勝っています：

GPT-5.3-Codex：77.3%
GPT-5.4：75.1%

差は2.2ptと小さいですが、ターミナルが命の開発者にとっては意味のある差です。自分もSSHやgit操作を多用するので、ここは気になるポイントでした。

⚠️ ベンチマークの裏側も知っておくべき

調べていく中で、数字の読み方にも注意が必要だと分かりました：

スキャフォールド次第でスコアが激変：同じモデルでも基本構成だと23%、最適化構成だと45%+。この22ptの変動幅は、モデル間の2-3ptの差よりはるかに大きい
OpenAIのベンチマーク切り替え：SWE-Bench Verified（Claudeが有利）を廃止し、SWE-Bench Pro（GPT-5.4が有利）に切り替えた経緯あり

💰 価格面はどうなった？

Codexがなくなったことで、コーディング用途の価格設計も変わっています。

📋 APIトークン単価

モデル	入力 ($/MTok)	出力 ($/MTok)	キャッシュ入力	コンテキスト
🔵 GPT-5.3-Codex	$1.75	$14.00	—	400K
🟢 GPT-5.4 Standard	$2.50	$15.00	$0.25	1.05M
🟣 GPT-5.4 Pro	$30.00	$180.00	—	1.05M
🟡 GPT-5.4 Mini	$0.75	$4.50	$0.075	400K
⚪ GPT-5.4 Nano	$0.20	$1.25	$0.02	400K

🧮 単価は上がった。でも実質コストは？

パッと見、GPT-5.4は入力で43%高い（$1.75→$2.50）。「Codexの方が安いじゃん」と思いました。

でも調べてみると、GPT-5.4はトークン効率が47%改善されていて、同じタスクで消費するトークン数がかなり少ない。

📝 同じタスクでの比較：
GPT-5.3-Codex: 1,200 output tokens × $14.00/MTok = $0.0168
GPT-5.4:         800 output tokens × $15.00/MTok = $0.0120

→ GPT-5.4の方がタスクあたり28%安い 💡

これは盲点でした。トークン単価ではなく、タスク単価で考えるべきだったのです。

💡 それでもCodexが安いケース

入力ヘビーなパイプライン：大量のコードを繰り返し送信する場合、入力単価の30%差が効く
シンプルなターミナルタスク：出力が短くトークン効率差が出にくい

💡 GPT-5.4が実質安いケース

複雑な推論タスク：トークン効率47%改善の恩恵が大きい
キャッシュ活用：繰り返しコンテキストが$0.25/MTokに
ロングコンテキスト：1.05Mトークンで大規模コードベースを丸ごと分析

⚡ コストの落とし穴

項目	内容
🔴 コンテキスト超過	標準272K超過分は入力単価が2倍（$2.50→$5.00/MTok）
🟢 Batch API	全トークンコスト50%オフ（24時間以内保証）
🟡 リージョナル処理	10%割増
🔴 GPT-5.2廃止	2026年6月5日に廃止予定

💳 ChatGPTプラン別

プラン	月額	利用可能モデル
Free	$0	GPT-5.4 Mini
Plus	$20	GPT-5.3-Codex, GPT-5.4
Pro	$200	上記 + GPT-5.3-Codex-Spark, GPT-5.4 Pro

⚡ GPT-5.3-Codex-Spark も忘れてはいけない

Codex系譜の最後の派生モデル、Sparkも調べました。GPT-5.3-Codexの蒸留版で、速度に全振りしたモデルです。

項目	GPT-5.3-Codex	Codex-Spark
速度	~50-60 tok/s	1,000+ tok/s（15倍）
Terminal-Bench 2.0	77.3%	58.4%
コンテキスト	400K	128K
ハードウェア	標準GPU	Cerebras WSE-3
利用条件	Plus以上	Pro限定（$200/月）
API	あり	なし

1,000+トークン/秒は圧巻ですが、性能はかなり落ちます。Snakeゲーム作成は50秒で完了する一方、複雑なアーキテクチャ設計では破綻するとのこと。

Codexが終わった今、Sparkの立ち位置は微妙です。GPT-5.4 Miniが速度・性能・コストのバランスで上なので、Sparkを選ぶ理由はラピッドプロトタイピングくらいに限られます。

🏗️ じゃあ今、何を使えばいいのか

Codexなき後、GPT-5.4は5バリアントでコーディング需要をカバーしています。

バリアント	入力	出力	速度	コンテキスト	用途
🟣 Pro	$30.00	$180.00	~30 tok/s	1.05M	最高精度の研究・分析
🟢 Standard	$2.50	$15.00	~60 tok/s	1.05M	フルスタック開発
🟡 Mini	$0.75	$4.50	~180-190 tok/s	400K	コスト効率重視
⚪ Nano	$0.20	$1.25	~200 tok/s	400K	分類・抽出・サブエージェント

🌟 個人的に注目しているのはGPT-5.4 Mini

Codexからの移行先として意外にもベストなのがMiniだと思います：

Standardの94%のコーディング性能を維持
OSWorldも72.1%（Standard 75.0%とほぼ同等）
GPT-5.3-Codexよりも安い（入力: $0.75 vs $1.75）
速度は3倍

コスト重視でCodexを使っていた人にとっては、性能も価格も改善されるwin-winです。

🧑‍💻 開発者コミュニティはどう見ている？

✅ 移行して良かった点

大規模コードベース分析とターゲット修正が優秀
PC操作の自動化 — Codex時代にはなかった能力
モデル切り替えの認知負荷がなくなった

😐 惜しい点

ターミナル操作の精度は微減（-2.2pt）
入力トークン単価は上がった（ただしMiniなら逆に安い）

🐛 注意：既知のバグ

⚠️ GPT-5.4のツール呼び出しバグ（2026年3月6日〜）

カスタム関数ツールが存在すると、shell や apply_patch などのビルトインツールを無視する。GitHub Issue #13773で報告済み。エージェント型ワークフローに影響大。

🗣️ 印象的だった声

「誰も全面切り替えはしていない。全員がタスクごとにルーティングしている。GPT-5.4は大規模コードベース分析とターゲット修正に、Claudeは複数ファイルリファクタリングとアーキテクチャ作業に。」
— Thomas Wiegold

Codexがなくなっても、1つのモデルに全賭けする時代ではないんですね。

🌍 競合との比較も調べた

2026年4月時点のフロンティアモデル（Artificial Analysis Intelligence Index）：

モデル	スコア	主な強み
🔵 Gemini 3.1 Pro Preview	57	長コンテキスト、マルチモーダル
🟢 GPT-5.4 (xhigh)	57	PC操作、汎用性
🔵 GPT-5.3-Codex (xhigh)	54	ターミナルコーディング
🟠 Claude Opus 4.6	53	マルチファイルリファクタリング、開発者体験

差は2-3ポイント以内。 Codex統合後のGPT-5.4は競合と横並び。もはや性能差よりも、価格・開発者体験・エコシステムとの相性で選ぶ時代です。

🎯 まとめ：勘違いから学んだこと

自分の勘違いの整理

勘違い	実際
GPT-5.4-Codexが出ると思っていた	❌ Codexは5.3で終了、GPT-5.4に統合
統合モデルは専用モデルに劣るはず	❌ 5/6のベンチマークでGPT-5.4が勝利
GPT-5.4は高い	△ トークン単価は高いが、タスク単価は安い場合あり
Codexの代替はGPT-5.4 Standardだけ	❌ GPT-5.4 MiniがCodexより安くて実用的

今の自分の使い分け方針

やりたいこと
│
├─ 🔀 Codexから移行
│   ├─ コスト重視 → GPT-5.4 Mini（Codexより安い、94%性能）
│   └─ 性能重視 → GPT-5.4 Standard（ほぼ全領域で上回る）
│
├─ ⌨️ ターミナル操作中心
│   └─→ GPT-5.3-Codexを継続（唯一リードする領域）
│
├─ 💰 大量処理でコスト最優先
│   └─→ GPT-5.4 Mini（$0.75/$4.50）
│
├─ ⚡ 速度最優先
│   └─→ GPT-5.3-Codex-Spark（Pro限定）
│
└─ 🤖 サブエージェント / 分類
    └─→ GPT-5.4 Nano（$0.20/$1.25）

💡 コスト最適化Tips

戦略	効果
🔄 キャッシュ入力の活用	繰り返しコンテキストを$0.25/MTokに
📦 Batch API	非リアルタイム処理を50%オフ
🟡 MiniへのFallback	定型タスクをMiniにルーティングして6倍節約
🔀 タスクベースルーティング	GPT-5.4 + Claude + Gemini を用途別に

⏰ 最後に：GPT-5.2は2026年6月5日廃止

まだGPT-5.2を使っている人は移行計画を。GPT-5.4がほぼ全ケースで上位互換です。

💬 今回の教訓：「次もCodexが出るだろう」という思い込みは、AIモデルの進化速度の前では通用しない。専用モデルが汎用モデルに吸収される流れは、今後も続くかもしれない。

📚 参考ソース

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up