はじめに
2026年3月5日、OpenAIは最新フラッグシップモデル GPT-5.4 を正式リリースしました。汎用モデルとしては初めて**ネイティブなコンピュータ操作(Computer Use)**を搭載し、AIエージェントがマウスやキーボードを通じてデスクトップアプリケーションを直接操作できるようになりました。
この記事で学べること
- GPT-5.4の主要な新機能(Computer Use / Tool Search / 1Mコンテキスト)
- 各ベンチマークにおける競合モデルとの性能比較
- APIの料金体系とモデルバリアント
- Python APIを使った実装の基本パターン
対象読者
- OpenAI APIを利用している開発者
- AIエージェント開発に関心があるエンジニア
- GPT-5.2/5.3からの移行を検討している方
TL;DR
- GPT-5.4は汎用モデル初のネイティブComputer Useを搭載し、OSWorld 75.0%(人間超え)を達成
- Tool Searchにより大規模ツールエコシステムでのトークン使用量を47%削減
- 1,050Kトークンのコンテキストウィンドウ(272K超は2倍課金)
- 料金は$2.50/$15.00(入力/出力・1Mトークンあたり)
- 事実誤認率がGPT-5.2比で33%改善
GPT-5.4の主要な新機能
1. ネイティブComputer Use
GPT-5.4は、スクリーンショットの認識とマウス・キーボード操作をモデル自体に組み込んでいます。Playwrightなどのライブラリを通じたコード生成による操作と、スクリーンショットに応答するダイレクト操作の両方に対応しています。
主な活用シーン:
| ユースケース | 説明 |
|---|---|
| ブラウザ自動操作 | Webサイトのフォーム入力・ナビゲーション |
| デスクトップ自動化 | Excel・スプレッドシートの操作 |
| クロスアプリワークフロー | 複数アプリケーション間の連携処理 |
| テスト自動化 | UIの動作検証・スクリーンショット比較 |
OSWorldベンチマークでは**75.0%**を記録し、人間のベースライン(72.4%)を上回りました。これは、AIモデルがデスクトップ操作タスクにおいて人間レベルの性能に到達したことを示しています。
2. Tool Search
大規模なツールエコシステム(MCP、プラグイン、スキルなど)を効率的に検索・選択する機能です。従来は利用可能なすべてのツール定義をコンテキストに含める必要がありましたが、Tool Searchではモデルが必要なツールを動的に検索・発見します。
メリット:
- トークン使用量を47%削減
- ツール数が多い環境でもインテリジェンスを維持
- MCP、アプリコネクタ、スキルを横断的に検索
3. 1,050Kトークン コンテキストウィンドウ
GPT-5.4では最大1,050,000トークンのコンテキストウィンドウを利用できます。これにより、大規模なコードベース全体の分析や、長期間にわたるエージェントの計画・実行・検証が可能になります。
注意: 272,000トークンを超える入力は、入力料金が2倍($5.00/1Mトークン)、出力料金が1.5倍($22.50/1Mトークン)になります。
ベンチマーク比較
GPT-5.4、Claude Opus 4.6、Gemini 3.1 Proの主要ベンチマーク結果を比較します。OpenAI公式発表および各社の公開データに基づいています。
| ベンチマーク | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | 評価対象 |
|---|---|---|---|---|
| OSWorld | 75.0% | — | — | デスクトップ操作 |
| GDPval | 83.0% | — | — | 知識労働 |
| SWE-Bench Verified | 77.2% | 80.8% | 80.6% | コーディング |
| GPQA Diamond | 92.8% | 91.3% | 94.3% | 科学推論 |
| ARC-AGI-2 | 73.3% | 68.8% | 77.1% | 抽象推論 |
| MMMU-Pro | 81.2% | 85.1% | 80.5% | マルチモーダル |
※ベンチマーク値は各社の公式発表および第三者評価に基づきます。評価条件により数値が異なる場合があります。
ポイント:
- Computer Use・知識労働: GPT-5.4が優位(OSWorld 75.0%、GDPval 83.0%)
- コーディング: Claude Opus 4.6がリード(SWE-Bench 80.8%)
- 科学推論・抽象推論: Gemini 3.1 Proが最強(GPQA 94.3%、ARC-AGI 77.1%)
- 単一の「最強モデル」は存在せず、用途に応じた選択が重要
モデルバリアントと料金
GPT-5.4には3つのバリアントが用意されています。
バリアント一覧
| バリアント | モデルID | 用途 |
|---|---|---|
| Standard | gpt-5.4 |
汎用タスク |
| Thinking | gpt-5.4-thinking |
推論強化(5段階のeffort制御) |
| Pro | gpt-5.4-pro |
最高精度のエンタープライズ用途 |
料金体系(1Mトークンあたり)
| 項目 | Standard | Pro |
|---|---|---|
| 入力 | $2.50 | $30.00 |
| キャッシュ入力 | $0.25 | — |
| 出力 | $15.00 | $180.00 |
| 長文入力(>272K) | $5.00 | — |
| 長文出力(>272K時) | $22.50 | — |
Batch APIおよびFlex処理モードでは半額料金が適用されます。
Thinking バリアントの推論レベル
gpt-5.4-thinking では、reasoning.effort パラメータで推論の深さを5段階で制御できます。
| レベル | 用途 | コスト影響 |
|---|---|---|
none |
推論不要の単純タスク | 最小 |
low |
軽量な判断 | 低 |
medium |
一般的な推論タスク | 中 |
high |
複雑な分析・計画 | 高 |
xhigh |
数学・科学の難問 | 最大 |
APIの基本的な使い方
Chat Completions API
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain the key features of GPT-5.4."}
]
)
print(response.choices[0].message.content)
Thinking モードの利用
response = client.chat.completions.create(
model="gpt-5.4-thinking",
messages=[
{"role": "user", "content": "Solve this step by step: ..."}
],
reasoning={"effort": "high"}
)
Computer Use(Responses API)
Computer Useは Responses API を通じて利用します。モデルがスクリーンショットを受け取り、マウスクリックやキーボード入力のアクションを返す仕組みです。
response = client.responses.create(
model="gpt-5.4",
tools=[{"type": "computer_use_preview"}],
input=[
{
"role": "user",
"content": "Open the browser and navigate to example.com"
}
]
)
Computer Use は現在プレビュー段階であり、本番環境での利用には十分なテストが推奨されます。
Tool Search の活用
Tool Searchを有効にすると、登録済みのツール群からモデルが最適なツールを自動的に選択します。
response = client.responses.create(
model="gpt-5.4",
tools=[
{"type": "tool_search"},
# 個別のツール定義は不要 — モデルが自動検索
],
input=[
{
"role": "user",
"content": "Find the latest sales data and create a chart"
}
]
)
GPT-5.2/5.3からの移行ポイント
GPT-5.4への移行で押さえるべき変更点をまとめます。
| 項目 | GPT-5.2/5.3 | GPT-5.4 |
|---|---|---|
| コンテキストウィンドウ | 400K | 1,050K |
| Computer Use | 非対応 | ネイティブ対応 |
| Tool Search | 非対応 | 対応 |
| 事実正確性 | ベースライン | 33%改善 |
| 料金(入力) | $2.50/1M | $2.50/1M |
| Thinking制御 | effort指定 | 5段階(none〜xhigh) |
移行時の注意点:
-
モデルID の変更:
gpt-5.2/gpt-5.3からgpt-5.4に変更するだけで基本的な互換性は維持されます - 長文コンテキストの課金: 272Kトークンを超える入力は2倍課金になるため、大量のコンテキストを使うワークフローではコスト試算が必要です
- 新ツールの活用: Computer UseとTool Searchは Responses API 経由で利用するため、Chat Completions APIから移行する場合はエンドポイントの変更が必要です
まとめ
- GPT-5.4はネイティブComputer Useを搭載した初の汎用モデルであり、AIエージェントの操作範囲を大きく拡張する
- Tool Searchによりトークン効率が47%改善し、大規模ツールエコシステムでの運用コストを削減できる
- 1,050Kトークンのコンテキストウィンドウで長期的なタスク実行が可能になった一方、272K超の料金体系に注意が必要
- コーディングではClaude Opus 4.6、科学推論ではGemini 3.1 Proが優位であり、用途に応じたモデル選択が重要
- 事実正確性が33%改善されており、信頼性の高い出力が求められるエンタープライズ用途での価値が高い



