0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GPT-5.4が出た。開発者として知っておくべきこと全部まとめる

0
Posted at

一言で言うと

OpenAIが2026年3月5日(日本時間3/6)にGPT-5.4をリリースした。「プロ仕事向け最強モデル」という位置づけで、コンピュータ操作・100万トークンコンテキスト・ハルシネーション33%削減が目玉。

開発者として触ってみて、気になったポイントをまとめる。


何が変わったのか

1. ネイティブのコンピュータ操作

GPT-5.4は汎用モデルとして初めてコンピュータ操作を内蔵している。スクリーンショットを解析してキーボード・マウス操作を実行する。

ベンチマーク:

  • OSWorld(デスクトップ操作): 75.0%(GPT-5.2の47.3%から+59%)
  • WebArena(ブラウザ操作): 67.3%

つまり「ブラウザを開いて、このフォームに入力して、ボタンを押して」みたいなタスクをモデル単体でこなせるようになった。

正直、ここまで来ると「AIにタスクを投げて放置」が現実的になってくる。Claude Code的なエージェント利用がOpenAI側でも本格化した形。

2. 100万トークンのコンテキストウィンドウ

APIとCodexで最大100万トークンに対応。標準は272Kトークンで、超過分は2倍の課金。

100万トークンあると何ができるか:

  • 大規模リポジトリ全体を一度に投入してリファクタリング指示
  • 長大なドキュメント群を一括解析
  • 複数ファイルにまたがるコードレビュー

ただし272K超えると2倍課金なので、実運用では「必要な部分だけ渡す」設計の方がコスパは良い。

3. ハルシネーション削減

GPT-5.2と比較して:

  • 個別の主張の誤り: 33%削減
  • レスポンス全体のエラー率: 18%削減

数字だけ見ると改善しているが、「33%削減」は「ゼロになった」ではない。まだ嘘をつく。ここは冷静に見るべき。

4. Tool Search(新機能)

ツール定義を事前に全部読み込む代わりに、必要な時にオンデマンドで取得する仕組み。トークン消費を47%削減

MCP(Model Context Protocol)やFunction Callingを多用する開発者にとっては地味に大きい。ツールが増えるほどコンテキストを圧迫する問題が軽減される。

5. 44職種で専門家レベル

GDPval(知識労働ベンチマーク)で83%の職種で専門家と同等以上のパフォーマンス。GPT-5.2の70.9%から+12.1ポイント。

法律文書(BigLaw Bench)では91%達成。


モデルバリエーション

モデル 用途 利用可能プラン
GPT-5.4 API・Codex向け標準 API
GPT-5.4 Thinking 推論強化版 Plus / Team / Pro
GPT-5.4 Pro 最高性能 Pro限定

注意: 無料プランではGPT-5.4は使えない。Plus以上が必要。

GPT-5.2 Thinkingは2026年6月5日に廃止予定。3ヶ月の移行期間あり。


コーディング性能はどうか

SWE-Bench Pro(コーディングベンチマーク): 57.7%

これはGPT-5.3-Codexの56.8%とほぼ同等。つまりコーディング性能は据え置きで、それ以外の領域(コンピュータ操作、知識労働、Web調査)が大幅に強化された形。

コード書かせるだけならGPT-5.3-Codexで十分。GPT-5.4の本領は「コードを書く→テストする→デプロイする」のワークフロー全体を自律的に回すところにある。


開発者として気になる点

エージェント時代の加速

GPT-5.4のコンピュータ操作 + 100万トークンコンテキスト + Tool Searchの組み合わせは、エージェントワークフローの実用度を一段上げる

実際、OpenAIは「開発者がカスタムインフラを構築しなくても、箱出しでエージェント的な動作が可能」と謳っている。

これはClaude CodeやGeminiのProject Marinerと同じ方向性。2026年はエージェントの年になるのが確定した感がある。

AI生成コードがさらに増える

エージェントが自律的にコードを書いて実行する時代になると、人間がレビューしないコードの量が爆増する

自分はセキュリティスキャナーを開発している立場なので余計に気になるが、「AIが書いたコードをAIがレビューする」フローが当たり前になった時、品質担保をどこでやるかは業界全体の課題になる。

特にGPT-5.4のコンピュータ操作機能は、「AIが勝手にnpm publishする」みたいなシナリオを技術的に可能にしてしまう。便利だが怖い。

価格設計に注意

272Kトークン超で2倍課金というのは、大規模コンテキストを気軽に使わせない設計。100万トークン使えると聞いて飛びつくと、請求書で驚くことになる。

実用的には:

  • 通常のチャット・コード生成: 272K以内で十分
  • 大規模リポジトリ解析: コスト試算してから
  • CI/CDへの組み込み: 1リクエストあたりのトークン数を監視すべき

まとめ

項目 GPT-5.2 GPT-5.4 変化
コンピュータ操作 なし ネイティブ対応 新機能
コンテキスト 128K 最大100万 8倍
ハルシネーション ベースライン -33% 改善
知識労働 70.9% 83.0% +12pt
コーディング 57.7% 据え置き
デスクトップ操作 47.3% 75.0% +59%

一言評価: コーディング単体の進化は小さいが、「AIが自律的にワークフローを回す」能力は大幅に上がった。開発者としては、エージェント設計とコスト管理の2点を意識すべきリリース。


筆者はAI生成コードのセキュリティスキャナー CodeHeal を開発しています。AIが書くコードが増えるほど、自動的なセキュリティチェックの重要性は上がる — そう考えて作ったツールです。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?