一言で言うと
OpenAIが2026年3月5日(日本時間3/6)にGPT-5.4をリリースした。「プロ仕事向け最強モデル」という位置づけで、コンピュータ操作・100万トークンコンテキスト・ハルシネーション33%削減が目玉。
開発者として触ってみて、気になったポイントをまとめる。
何が変わったのか
1. ネイティブのコンピュータ操作
GPT-5.4は汎用モデルとして初めてコンピュータ操作を内蔵している。スクリーンショットを解析してキーボード・マウス操作を実行する。
ベンチマーク:
- OSWorld(デスクトップ操作): 75.0%(GPT-5.2の47.3%から+59%)
- WebArena(ブラウザ操作): 67.3%
つまり「ブラウザを開いて、このフォームに入力して、ボタンを押して」みたいなタスクをモデル単体でこなせるようになった。
正直、ここまで来ると「AIにタスクを投げて放置」が現実的になってくる。Claude Code的なエージェント利用がOpenAI側でも本格化した形。
2. 100万トークンのコンテキストウィンドウ
APIとCodexで最大100万トークンに対応。標準は272Kトークンで、超過分は2倍の課金。
100万トークンあると何ができるか:
- 大規模リポジトリ全体を一度に投入してリファクタリング指示
- 長大なドキュメント群を一括解析
- 複数ファイルにまたがるコードレビュー
ただし272K超えると2倍課金なので、実運用では「必要な部分だけ渡す」設計の方がコスパは良い。
3. ハルシネーション削減
GPT-5.2と比較して:
- 個別の主張の誤り: 33%削減
- レスポンス全体のエラー率: 18%削減
数字だけ見ると改善しているが、「33%削減」は「ゼロになった」ではない。まだ嘘をつく。ここは冷静に見るべき。
4. Tool Search(新機能)
ツール定義を事前に全部読み込む代わりに、必要な時にオンデマンドで取得する仕組み。トークン消費を47%削減。
MCP(Model Context Protocol)やFunction Callingを多用する開発者にとっては地味に大きい。ツールが増えるほどコンテキストを圧迫する問題が軽減される。
5. 44職種で専門家レベル
GDPval(知識労働ベンチマーク)で83%の職種で専門家と同等以上のパフォーマンス。GPT-5.2の70.9%から+12.1ポイント。
法律文書(BigLaw Bench)では91%達成。
モデルバリエーション
| モデル | 用途 | 利用可能プラン |
|---|---|---|
| GPT-5.4 | API・Codex向け標準 | API |
| GPT-5.4 Thinking | 推論強化版 | Plus / Team / Pro |
| GPT-5.4 Pro | 最高性能 | Pro限定 |
注意: 無料プランではGPT-5.4は使えない。Plus以上が必要。
GPT-5.2 Thinkingは2026年6月5日に廃止予定。3ヶ月の移行期間あり。
コーディング性能はどうか
SWE-Bench Pro(コーディングベンチマーク): 57.7%
これはGPT-5.3-Codexの56.8%とほぼ同等。つまりコーディング性能は据え置きで、それ以外の領域(コンピュータ操作、知識労働、Web調査)が大幅に強化された形。
コード書かせるだけならGPT-5.3-Codexで十分。GPT-5.4の本領は「コードを書く→テストする→デプロイする」のワークフロー全体を自律的に回すところにある。
開発者として気になる点
エージェント時代の加速
GPT-5.4のコンピュータ操作 + 100万トークンコンテキスト + Tool Searchの組み合わせは、エージェントワークフローの実用度を一段上げる。
実際、OpenAIは「開発者がカスタムインフラを構築しなくても、箱出しでエージェント的な動作が可能」と謳っている。
これはClaude CodeやGeminiのProject Marinerと同じ方向性。2026年はエージェントの年になるのが確定した感がある。
AI生成コードがさらに増える
エージェントが自律的にコードを書いて実行する時代になると、人間がレビューしないコードの量が爆増する。
自分はセキュリティスキャナーを開発している立場なので余計に気になるが、「AIが書いたコードをAIがレビューする」フローが当たり前になった時、品質担保をどこでやるかは業界全体の課題になる。
特にGPT-5.4のコンピュータ操作機能は、「AIが勝手にnpm publishする」みたいなシナリオを技術的に可能にしてしまう。便利だが怖い。
価格設計に注意
272Kトークン超で2倍課金というのは、大規模コンテキストを気軽に使わせない設計。100万トークン使えると聞いて飛びつくと、請求書で驚くことになる。
実用的には:
- 通常のチャット・コード生成: 272K以内で十分
- 大規模リポジトリ解析: コスト試算してから
- CI/CDへの組み込み: 1リクエストあたりのトークン数を監視すべき
まとめ
| 項目 | GPT-5.2 | GPT-5.4 | 変化 |
|---|---|---|---|
| コンピュータ操作 | なし | ネイティブ対応 | 新機能 |
| コンテキスト | 128K | 最大100万 | 8倍 |
| ハルシネーション | ベースライン | -33% | 改善 |
| 知識労働 | 70.9% | 83.0% | +12pt |
| コーディング | — | 57.7% | 据え置き |
| デスクトップ操作 | 47.3% | 75.0% | +59% |
一言評価: コーディング単体の進化は小さいが、「AIが自律的にワークフローを回す」能力は大幅に上がった。開発者としては、エージェント設計とコスト管理の2点を意識すべきリリース。
筆者はAI生成コードのセキュリティスキャナー CodeHeal を開発しています。AIが書くコードが増えるほど、自動的なセキュリティチェックの重要性は上がる — そう考えて作ったツールです。