GPT-5.4が出た。開発者として知っておくべきこと全部まとめる

Posted at 2026-03-06

一言で言うと

OpenAIが2026年3月5日（日本時間3/6）にGPT-5.4をリリースした。「プロ仕事向け最強モデル」という位置づけで、コンピュータ操作・100万トークンコンテキスト・ハルシネーション33%削減が目玉。

開発者として触ってみて、気になったポイントをまとめる。

何が変わったのか

1. ネイティブのコンピュータ操作

GPT-5.4は汎用モデルとして初めてコンピュータ操作を内蔵している。スクリーンショットを解析してキーボード・マウス操作を実行する。

ベンチマーク:

OSWorld（デスクトップ操作）: 75.0%（GPT-5.2の47.3%から+59%）
WebArena（ブラウザ操作）: 67.3%

つまり「ブラウザを開いて、このフォームに入力して、ボタンを押して」みたいなタスクをモデル単体でこなせるようになった。

正直、ここまで来ると「AIにタスクを投げて放置」が現実的になってくる。Claude Code的なエージェント利用がOpenAI側でも本格化した形。

2. 100万トークンのコンテキストウィンドウ

APIとCodexで最大100万トークンに対応。標準は272Kトークンで、超過分は2倍の課金。

100万トークンあると何ができるか:

大規模リポジトリ全体を一度に投入してリファクタリング指示
長大なドキュメント群を一括解析
複数ファイルにまたがるコードレビュー

ただし272K超えると2倍課金なので、実運用では「必要な部分だけ渡す」設計の方がコスパは良い。

3. ハルシネーション削減

GPT-5.2と比較して:

個別の主張の誤り: 33%削減
レスポンス全体のエラー率: 18%削減

数字だけ見ると改善しているが、「33%削減」は「ゼロになった」ではない。まだ嘘をつく。ここは冷静に見るべき。

4. Tool Search（新機能）

ツール定義を事前に全部読み込む代わりに、必要な時にオンデマンドで取得する仕組み。トークン消費を47%削減。

MCP（Model Context Protocol）やFunction Callingを多用する開発者にとっては地味に大きい。ツールが増えるほどコンテキストを圧迫する問題が軽減される。

5. 44職種で専門家レベル

GDPval（知識労働ベンチマーク）で83%の職種で専門家と同等以上のパフォーマンス。GPT-5.2の70.9%から+12.1ポイント。

法律文書（BigLaw Bench）では91%達成。

モデルバリエーション

モデル	用途	利用可能プラン
GPT-5.4	API・Codex向け標準	API
GPT-5.4 Thinking	推論強化版	Plus / Team / Pro
GPT-5.4 Pro	最高性能	Pro限定

注意: 無料プランではGPT-5.4は使えない。Plus以上が必要。

GPT-5.2 Thinkingは2026年6月5日に廃止予定。3ヶ月の移行期間あり。

コーディング性能はどうか

SWE-Bench Pro（コーディングベンチマーク）: 57.7%

これはGPT-5.3-Codexの56.8%とほぼ同等。つまりコーディング性能は据え置きで、それ以外の領域（コンピュータ操作、知識労働、Web調査）が大幅に強化された形。

コード書かせるだけならGPT-5.3-Codexで十分。GPT-5.4の本領は「コードを書く→テストする→デプロイする」のワークフロー全体を自律的に回すところにある。

開発者として気になる点

エージェント時代の加速

GPT-5.4のコンピュータ操作 + 100万トークンコンテキスト + Tool Searchの組み合わせは、エージェントワークフローの実用度を一段上げる。

実際、OpenAIは「開発者がカスタムインフラを構築しなくても、箱出しでエージェント的な動作が可能」と謳っている。

これはClaude CodeやGeminiのProject Marinerと同じ方向性。2026年はエージェントの年になるのが確定した感がある。

AI生成コードがさらに増える

エージェントが自律的にコードを書いて実行する時代になると、人間がレビューしないコードの量が爆増する。

自分はセキュリティスキャナーを開発している立場なので余計に気になるが、「AIが書いたコードをAIがレビューする」フローが当たり前になった時、品質担保をどこでやるかは業界全体の課題になる。

特にGPT-5.4のコンピュータ操作機能は、「AIが勝手にnpm publishする」みたいなシナリオを技術的に可能にしてしまう。便利だが怖い。

価格設計に注意

272Kトークン超で2倍課金というのは、大規模コンテキストを気軽に使わせない設計。100万トークン使えると聞いて飛びつくと、請求書で驚くことになる。

実用的には:

通常のチャット・コード生成: 272K以内で十分
大規模リポジトリ解析: コスト試算してから
CI/CDへの組み込み: 1リクエストあたりのトークン数を監視すべき

まとめ

項目	GPT-5.2	GPT-5.4	変化
コンピュータ操作	なし	ネイティブ対応	新機能
コンテキスト	128K	最大100万	8倍
ハルシネーション	ベースライン	-33%	改善
知識労働	70.9%	83.0%	+12pt
コーディング	—	57.7%	据え置き
デスクトップ操作	47.3%	75.0%	+59%

一言評価: コーディング単体の進化は小さいが、「AIが自律的にワークフローを回す」能力は大幅に上がった。開発者としては、エージェント設計とコスト管理の2点を意識すべきリリース。

筆者はAI生成コードのセキュリティスキャナー CodeHeal を開発しています。AIが書くコードが増えるほど、自動的なセキュリティチェックの重要性は上がる — そう考えて作ったツールです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up