📌 何を勘違いしていたのか
GPT-5.3-Codexの次は当然「GPT-5.4-Codex」が出るものだと思っていました。
Codexシリーズはバージョンごとに順当に進化してきたし、コーディング特化モデルの需要は増す一方。次のCodexも当然来るだろう、と。
来ませんでした。
GPT-5.4のリリースノートを読んで気づいたのですが、OpenAIはCodexを独立モデルとして出すのをやめ、汎用モデル本体に統合していたのです。つまりGPT-5.3-Codexが「最後のCodex」。
これは結構大きな方針転換なのに、あまり騒がれていない気がします。気になったので徹底的に調べてみました。
🪦 Codexはどこへ行ったのか
Codex系譜を振り返る
GPT-5.2 ─── GPT-5.2-Codex
│
├─ 2026/02/05 → GPT-5.3-Codex 🔚 ← これが最後
│ └─ 2026/02/12 → GPT-5.3-Codex-Spark(高速版)
│
└─ 2026/03/05 → GPT-5.4 🔀 ← Codex能力を本体に吸収
├─ GPT-5.4 Thinking
├─ GPT-5.4 Pro
├─ GPT-5.4 Mini(03/17)
└─ GPT-5.4 Nano(03/17)
OpenAIの公式見解
GPT-5.4の発表で、OpenAIはこう書いています:
GPT-5.4は「GPT-5.3-Codexのフロンティアコーディング能力を統合した初の汎用推論モデル」である
要するに、コーディング能力が汎用モデルに十分取り込めるレベルに達したから、専用モデルを分ける必要がなくなった、ということです。
考えてみれば自然な流れかもしれません。コーディング・推論・PC操作を1つのモデルでこなせるなら、ユーザーがモデルを使い分ける手間がなくなる。でも、「本当にCodexと同等以上なの?」という疑問は残ります。
📊 じゃあGPT-5.4のコーディング力はCodexを超えたのか?
ここが一番気になったところです。調べた結果を正直に書きます。
🏆 ベンチマーク対決
| ベンチマーク | GPT-5.4 | GPT-5.3-Codex | 🥇 勝者 | 差分 |
|---|---|---|---|---|
| SWE-Bench Pro(実世界バグ修正) | 57.7% | 55.6% | GPT-5.4 | +2.1pt |
| Terminal-Bench 2.0(ターミナル操作) | 75.1% | 77.3% | GPT-5.3-Codex | +2.2pt |
| Toolathlon(ツール使用) | 54.6% | 51.9% | GPT-5.4 | +2.7pt |
| BrowseComp(ブラウジング) | 82.7% | 77.3% | GPT-5.4 | +5.4pt |
| OSWorld-Verified(PC操作) | 75.0% | 64.7% | GPT-5.4 | +10.3pt |
| GDPval(知識業務) | 83.0% | — | GPT-5.4 | — |
GPT-5.4の5勝1敗。 正直、思っていたより差がありました。統合モデルが専用モデルをここまで上回るとは。
🖥️ 特にヤバいのがPC操作
OSWorld-Verifiedのスコアが衝撃的でした:
- 人間のベースライン:72.4%
- GPT-5.4:75.0% ← 🎉 人間超え
- GPT-5.3-Codex:64.7%
- GPT-5.2:47.3%
AIが人間よりうまくコンピュータを操作する時代。 ブラウザ操作やデスクトップアプリの自動化で人間を超えたのは史上初です。これはCodex時代にはなかった能力で、汎用モデル統合の恩恵と言えます。
⌨️ ただしターミナル操作だけはCodexが上
Terminal-Bench 2.0(SSH、CLIデバッグ、git操作、ビルドシステム)ではGPT-5.3-Codexがまだ勝っています:
- GPT-5.3-Codex:77.3%
- GPT-5.4:75.1%
差は2.2ptと小さいですが、ターミナルが命の開発者にとっては意味のある差です。自分もSSHやgit操作を多用するので、ここは気になるポイントでした。
⚠️ ベンチマークの裏側も知っておくべき
調べていく中で、数字の読み方にも注意が必要だと分かりました:
- スキャフォールド次第でスコアが激変:同じモデルでも基本構成だと23%、最適化構成だと45%+。この22ptの変動幅は、モデル間の2-3ptの差よりはるかに大きい
- OpenAIのベンチマーク切り替え:SWE-Bench Verified(Claudeが有利)を廃止し、SWE-Bench Pro(GPT-5.4が有利)に切り替えた経緯あり
💰 価格面はどうなった?
Codexがなくなったことで、コーディング用途の価格設計も変わっています。
📋 APIトークン単価
| モデル | 入力 ($/MTok) | 出力 ($/MTok) | キャッシュ入力 | コンテキスト |
|---|---|---|---|---|
| 🔵 GPT-5.3-Codex | $1.75 | $14.00 | — | 400K |
| 🟢 GPT-5.4 Standard | $2.50 | $15.00 | $0.25 | 1.05M |
| 🟣 GPT-5.4 Pro | $30.00 | $180.00 | — | 1.05M |
| 🟡 GPT-5.4 Mini | $0.75 | $4.50 | $0.075 | 400K |
| ⚪ GPT-5.4 Nano | $0.20 | $1.25 | $0.02 | 400K |
🧮 単価は上がった。でも実質コストは?
パッと見、GPT-5.4は入力で43%高い($1.75→$2.50)。「Codexの方が安いじゃん」と思いました。
でも調べてみると、GPT-5.4はトークン効率が47%改善されていて、同じタスクで消費するトークン数がかなり少ない。
📝 同じタスクでの比較:
GPT-5.3-Codex: 1,200 output tokens × $14.00/MTok = $0.0168
GPT-5.4: 800 output tokens × $15.00/MTok = $0.0120
→ GPT-5.4の方がタスクあたり28%安い 💡
これは盲点でした。トークン単価ではなく、タスク単価で考えるべきだったのです。
💡 それでもCodexが安いケース
- 入力ヘビーなパイプライン:大量のコードを繰り返し送信する場合、入力単価の30%差が効く
- シンプルなターミナルタスク:出力が短くトークン効率差が出にくい
💡 GPT-5.4が実質安いケース
- 複雑な推論タスク:トークン効率47%改善の恩恵が大きい
- キャッシュ活用:繰り返しコンテキストが$0.25/MTokに
- ロングコンテキスト:1.05Mトークンで大規模コードベースを丸ごと分析
⚡ コストの落とし穴
| 項目 | 内容 |
|---|---|
| 🔴 コンテキスト超過 | 標準272K超過分は入力単価が2倍($2.50→$5.00/MTok) |
| 🟢 Batch API | 全トークンコスト50%オフ(24時間以内保証) |
| 🟡 リージョナル処理 | 10%割増 |
| 🔴 GPT-5.2廃止 | 2026年6月5日に廃止予定 |
💳 ChatGPTプラン別
| プラン | 月額 | 利用可能モデル |
|---|---|---|
| Free | $0 | GPT-5.4 Mini |
| Plus | $20 | GPT-5.3-Codex, GPT-5.4 |
| Pro | $200 | 上記 + GPT-5.3-Codex-Spark, GPT-5.4 Pro |
⚡ GPT-5.3-Codex-Spark も忘れてはいけない
Codex系譜の最後の派生モデル、Sparkも調べました。GPT-5.3-Codexの蒸留版で、速度に全振りしたモデルです。
| 項目 | GPT-5.3-Codex | Codex-Spark |
|---|---|---|
| 速度 | ~50-60 tok/s | 1,000+ tok/s(15倍) |
| Terminal-Bench 2.0 | 77.3% | 58.4% |
| コンテキスト | 400K | 128K |
| ハードウェア | 標準GPU | Cerebras WSE-3 |
| 利用条件 | Plus以上 | Pro限定($200/月) |
| API | あり | なし |
1,000+トークン/秒は圧巻ですが、性能はかなり落ちます。Snakeゲーム作成は50秒で完了する一方、複雑なアーキテクチャ設計では破綻するとのこと。
Codexが終わった今、Sparkの立ち位置は微妙です。GPT-5.4 Miniが速度・性能・コストのバランスで上なので、Sparkを選ぶ理由はラピッドプロトタイピングくらいに限られます。
🏗️ じゃあ今、何を使えばいいのか
Codexなき後、GPT-5.4は5バリアントでコーディング需要をカバーしています。
| バリアント | 入力 | 出力 | 速度 | コンテキスト | 用途 |
|---|---|---|---|---|---|
| 🟣 Pro | $30.00 | $180.00 | ~30 tok/s | 1.05M | 最高精度の研究・分析 |
| 🟢 Standard | $2.50 | $15.00 | ~60 tok/s | 1.05M | フルスタック開発 |
| 🟡 Mini | $0.75 | $4.50 | ~180-190 tok/s | 400K | コスト効率重視 |
| ⚪ Nano | $0.20 | $1.25 | ~200 tok/s | 400K | 分類・抽出・サブエージェント |
🌟 個人的に注目しているのはGPT-5.4 Mini
Codexからの移行先として意外にもベストなのがMiniだと思います:
- Standardの94%のコーディング性能を維持
- OSWorldも72.1%(Standard 75.0%とほぼ同等)
- GPT-5.3-Codexよりも安い(入力: $0.75 vs $1.75)
- 速度は3倍
コスト重視でCodexを使っていた人にとっては、性能も価格も改善されるwin-winです。
🧑💻 開発者コミュニティはどう見ている?
✅ 移行して良かった点
- 大規模コードベース分析とターゲット修正が優秀
- PC操作の自動化 — Codex時代にはなかった能力
- モデル切り替えの認知負荷がなくなった
😐 惜しい点
- ターミナル操作の精度は微減(-2.2pt)
- 入力トークン単価は上がった(ただしMiniなら逆に安い)
🐛 注意:既知のバグ
⚠️ GPT-5.4のツール呼び出しバグ(2026年3月6日〜)
カスタム関数ツールが存在すると、
shellやapply_patchなどのビルトインツールを無視する。GitHub Issue #13773で報告済み。エージェント型ワークフローに影響大。
🗣️ 印象的だった声
「誰も全面切り替えはしていない。全員がタスクごとにルーティングしている。GPT-5.4は大規模コードベース分析とターゲット修正に、Claudeは複数ファイルリファクタリングとアーキテクチャ作業に。」
— Thomas Wiegold
Codexがなくなっても、1つのモデルに全賭けする時代ではないんですね。
🌍 競合との比較も調べた
2026年4月時点のフロンティアモデル(Artificial Analysis Intelligence Index):
| モデル | スコア | 主な強み |
|---|---|---|
| 🔵 Gemini 3.1 Pro Preview | 57 | 長コンテキスト、マルチモーダル |
| 🟢 GPT-5.4 (xhigh) | 57 | PC操作、汎用性 |
| 🔵 GPT-5.3-Codex (xhigh) | 54 | ターミナルコーディング |
| 🟠 Claude Opus 4.6 | 53 | マルチファイルリファクタリング、開発者体験 |
差は2-3ポイント以内。 Codex統合後のGPT-5.4は競合と横並び。もはや性能差よりも、価格・開発者体験・エコシステムとの相性で選ぶ時代です。
🎯 まとめ:勘違いから学んだこと
自分の勘違いの整理
| 勘違い | 実際 |
|---|---|
| GPT-5.4-Codexが出ると思っていた | ❌ Codexは5.3で終了、GPT-5.4に統合 |
| 統合モデルは専用モデルに劣るはず | ❌ 5/6のベンチマークでGPT-5.4が勝利 |
| GPT-5.4は高い | △ トークン単価は高いが、タスク単価は安い場合あり |
| Codexの代替はGPT-5.4 Standardだけ | ❌ GPT-5.4 MiniがCodexより安くて実用的 |
今の自分の使い分け方針
やりたいこと
│
├─ 🔀 Codexから移行
│ ├─ コスト重視 → GPT-5.4 Mini(Codexより安い、94%性能)
│ └─ 性能重視 → GPT-5.4 Standard(ほぼ全領域で上回る)
│
├─ ⌨️ ターミナル操作中心
│ └─→ GPT-5.3-Codexを継続(唯一リードする領域)
│
├─ 💰 大量処理でコスト最優先
│ └─→ GPT-5.4 Mini($0.75/$4.50)
│
├─ ⚡ 速度最優先
│ └─→ GPT-5.3-Codex-Spark(Pro限定)
│
└─ 🤖 サブエージェント / 分類
└─→ GPT-5.4 Nano($0.20/$1.25)
💡 コスト最適化Tips
| 戦略 | 効果 |
|---|---|
| 🔄 キャッシュ入力の活用 | 繰り返しコンテキストを$0.25/MTokに |
| 📦 Batch API | 非リアルタイム処理を50%オフ |
| 🟡 MiniへのFallback | 定型タスクをMiniにルーティングして6倍節約 |
| 🔀 タスクベースルーティング | GPT-5.4 + Claude + Gemini を用途別に |
⏰ 最後に:GPT-5.2は2026年6月5日廃止
まだGPT-5.2を使っている人は移行計画を。GPT-5.4がほぼ全ケースで上位互換です。
💬 今回の教訓:「次もCodexが出るだろう」という思い込みは、AIモデルの進化速度の前では通用しない。専用モデルが汎用モデルに吸収される流れは、今後も続くかもしれない。
📚 参考ソース
- Introducing GPT-5.3-Codex | OpenAI
- Introducing GPT-5.4 | OpenAI
- Introducing GPT-5.3-Codex-Spark | OpenAI
- Introducing GPT-5.4 mini and nano | OpenAI
- GPT-5.4 Review: Is It Worth Leaving GPT-5.3 Codex Behind? | Turing College
- GPT-5.4 vs GPT-5.3 Codex: Should Developers Upgrade? | NxCode
- GPT-5.4 (xhigh) | Artificial Analysis
- I Tested GPT 5.4 Against Every Rival | Thomas Wiegold
- OpenAI's new model leaps ahead in coding | Fortune
- Pricing | OpenAI API
- Best AI for Coding (2026) | Morphllm
