まず結論から言うと
正直、今回のGPT-5.4はかなり大きいアップデートだと思う。
ただ「回答が良くなった」とか「ベンチマークが伸びた」で片づけると、たぶん本質を見失う。
今回の変化は、推論が強いAIになったというより、ツールを使いながら長く仕事を進められるAIに近づいたこと。
ここが、普段からCursorやClaude Codeを触っている人ほど刺さるポイントだと思う。
「推論が強い」だけではなく
「ツールを使って長く動ける」
「PC操作までネイティブに扱える」
この一文が、かなり本質を突いている。
何が変わったのか
今回のポストで大きいのは、computer use、100万トークン、tool searchの3つ。
この3つが別々にすごいというより、組み合わさることで仕事の進め方そのものが変わるのが重要なんだよね。
computer useは、AIが画面を見て、操作して、必要ならコードも書きながら進める方向の話。
つまり、チャット欄の中だけで賢いAIではなくて、実際の作業環境に手を伸ばせるAIになってきたということ。
100万トークンもインパクトが大きい。
これは単に長文を読めるという意味じゃなくて、仕様書、既存コード、ログ、議事録、設計メモみたいな大量の文脈を抱えたまま、計画して、実行して、見直すループを回しやすくなる。
さらにtool search。
ツール定義を最初から全部抱え込まず、必要なものだけ取りにいけるので、ツールが多い環境ほど効く改善になっている。
MCPや社内ツール群をつないでいる人ほど、「そこを改善してくるのか」と感じるはず。
なぜこれがそんなに重要なのか
AIの進化って、ついモデルのIQ勝負みたいに見がちなんだけど、実務ではそこだけじゃ足りない。
本当に効くのは、考える力より、考えたあとに作業を前に進める力だったりする。
たとえば開発現場なら、要件を読む、コードを触る、ブラウザで確認する、エラーを見る、修正する、また試す、という往復がある。
資料作成でも、情報を集める、表にする、スライドにする、整える、見直す、という流れがある。
今回のGPT-5.4は、その往復にかなり寄ってきた。
だから、すごさの見え方が少し地味なんだけど、実務に入ると急に効くタイプの進化だと思う。
ベンチマークの数字ももちろん強い。
でも個人的には、数字そのものより、長いワークフローでトークン効率を落としにくいとか、ツールが多い環境でも破綻しにくいみたいな部分のほうが、現場では価値が大きい気がする。
ただ賢いAIではなく、途中で息切れしにくいAI。
ここが今回の見どころだと思う。
AI駆動開発の景色はどう変わるか
ここはかなり面白い。
今までのAI駆動開発は、Cursor、 Code、GitHub Copilotみたいな道具をどう並べるか、という発想が強かった。
でもGPT-5.4みたいに、推論、コーディング、ツール利用、PC操作が1つの流れで強くなってくると、モデル選定の基準が変わる。
「文章がうまいか」「コード補完が速いか」だけじゃなくて、長時間の実行ループを壊さず回せるかが重要になる。
個人開発でもかなり効くと思う。
一人で要件整理して、実装して、UI確認して、バグ直して、紹介文まで作る人にとっては、モデルが1段階上がるだけで作れるもののサイズが変わる。
スタートアップも同じで、人数が少ないほど、ひとつのモデルにどこまで任せられるかが競争力になる。
今後は「どのAIを使うか」より、「どのAIにどこまで作業を持たせる設計にするか」が差になりそう。
個人的に思うこと
正直、ここ最近はClaude系が強い場面もかなり多かったと思う。
特にAI駆動開発の文脈では、 Codeを中心に組む人が増えたのも自然だった。
でも今回のGPT-5.4は、単なる追いつきではなくて、ChatGPTが再び作業基盤に戻ってくる可能性を感じる。
会話のうまさだけじゃなく、実務ループの強さで選ばれるフェーズに入ってきたから。
個人的には、今後の技術スタックは単純な一択にはならないと思う。 系が強い領域、GPT系が強い領域、Cursorみたいな統合環境が強い領域はまだ分かれるはず。
ただ、今回のアップデートでひとつはっきりしたのは、**これから強いのは「答えるAI」ではなく「仕事を完了させるAI」**だということ。
GPT-5.4は、その流れをかなりはっきり見せてきた。そこがいちばん面白い。