GPT-5.4入門 — ネイティブPC操作・Tool Search・APIの全貌

Posted at 2026-03-07

はじめに

2026年3月5日、OpenAIは最新フラッグシップモデル GPT-5.4 を正式リリースしました。汎用モデルとしては初めて**ネイティブなコンピュータ操作（Computer Use）**を搭載し、AIエージェントがマウスやキーボードを通じてデスクトップアプリケーションを直接操作できるようになりました。

この記事で学べること

GPT-5.4の主要な新機能（Computer Use / Tool Search / 1Mコンテキスト）
各ベンチマークにおける競合モデルとの性能比較
APIの料金体系とモデルバリアント
Python APIを使った実装の基本パターン

対象読者

OpenAI APIを利用している開発者
AIエージェント開発に関心があるエンジニア
GPT-5.2/5.3からの移行を検討している方

TL;DR

GPT-5.4は汎用モデル初のネイティブComputer Useを搭載し、OSWorld 75.0%（人間超え）を達成
Tool Searchにより大規模ツールエコシステムでのトークン使用量を47%削減
1,050Kトークンのコンテキストウィンドウ（272K超は2倍課金）
料金は$2.50/$15.00（入力/出力・1Mトークンあたり）
事実誤認率がGPT-5.2比で33%改善

GPT-5.4の主要な新機能

1. ネイティブComputer Use

GPT-5.4は、スクリーンショットの認識とマウス・キーボード操作をモデル自体に組み込んでいます。Playwrightなどのライブラリを通じたコード生成による操作と、スクリーンショットに応答するダイレクト操作の両方に対応しています。

主な活用シーン：

ユースケース	説明
ブラウザ自動操作	Webサイトのフォーム入力・ナビゲーション
デスクトップ自動化	Excel・スプレッドシートの操作
クロスアプリワークフロー	複数アプリケーション間の連携処理
テスト自動化	UIの動作検証・スクリーンショット比較

OSWorldベンチマークでは**75.0%**を記録し、人間のベースライン（72.4%）を上回りました。これは、AIモデルがデスクトップ操作タスクにおいて人間レベルの性能に到達したことを示しています。

2. Tool Search

大規模なツールエコシステム（MCP、プラグイン、スキルなど）を効率的に検索・選択する機能です。従来は利用可能なすべてのツール定義をコンテキストに含める必要がありましたが、Tool Searchではモデルが必要なツールを動的に検索・発見します。

メリット：

トークン使用量を47%削減
ツール数が多い環境でもインテリジェンスを維持
MCP、アプリコネクタ、スキルを横断的に検索

3. 1,050Kトークンコンテキストウィンドウ

GPT-5.4では最大1,050,000トークンのコンテキストウィンドウを利用できます。これにより、大規模なコードベース全体の分析や、長期間にわたるエージェントの計画・実行・検証が可能になります。

注意: 272,000トークンを超える入力は、入力料金が2倍（$5.00/1Mトークン）、出力料金が1.5倍（$22.50/1Mトークン）になります。

ベンチマーク比較

GPT-5.4、Claude Opus 4.6、Gemini 3.1 Proの主要ベンチマーク結果を比較します。OpenAI公式発表および各社の公開データに基づいています。

ベンチマーク	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro	評価対象
OSWorld	75.0%	—	—	デスクトップ操作
GDPval	83.0%	—	—	知識労働
SWE-Bench Verified	77.2%	80.8%	80.6%	コーディング
GPQA Diamond	92.8%	91.3%	94.3%	科学推論
ARC-AGI-2	73.3%	68.8%	77.1%	抽象推論
MMMU-Pro	81.2%	85.1%	80.5%	マルチモーダル

※ベンチマーク値は各社の公式発表および第三者評価に基づきます。評価条件により数値が異なる場合があります。

ポイント：

Computer Use・知識労働: GPT-5.4が優位（OSWorld 75.0%、GDPval 83.0%）
コーディング: Claude Opus 4.6がリード（SWE-Bench 80.8%）
科学推論・抽象推論: Gemini 3.1 Proが最強（GPQA 94.3%、ARC-AGI 77.1%）
単一の「最強モデル」は存在せず、用途に応じた選択が重要

モデルバリアントと料金

GPT-5.4には3つのバリアントが用意されています。

バリアント一覧

バリアント	モデルID	用途
Standard	`gpt-5.4`	汎用タスク
Thinking	`gpt-5.4-thinking`	推論強化（5段階のeffort制御）
Pro	`gpt-5.4-pro`	最高精度のエンタープライズ用途

料金体系（1Mトークンあたり）

項目	Standard	Pro
入力	$2.50	$30.00
キャッシュ入力	$0.25	—
出力	$15.00	$180.00
長文入力（>272K）	$5.00	—
長文出力（>272K時）	$22.50	—

Batch APIおよびFlex処理モードでは半額料金が適用されます。

Thinking バリアントの推論レベル

gpt-5.4-thinking では、reasoning.effort パラメータで推論の深さを5段階で制御できます。

レベル	用途	コスト影響
`none`	推論不要の単純タスク	最小
`low`	軽量な判断	低
`medium`	一般的な推論タスク	中
`high`	複雑な分析・計画	高
`xhigh`	数学・科学の難問	最大

APIの基本的な使い方

Chat Completions API

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain the key features of GPT-5.4."}
    ]
)

print(response.choices[0].message.content)

Thinking モードの利用

response = client.chat.completions.create(
    model="gpt-5.4-thinking",
    messages=[
        {"role": "user", "content": "Solve this step by step: ..."}
    ],
    reasoning={"effort": "high"}
)

Computer Use（Responses API）

Computer Useは Responses API を通じて利用します。モデルがスクリーンショットを受け取り、マウスクリックやキーボード入力のアクションを返す仕組みです。

response = client.responses.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use_preview"}],
    input=[
        {
            "role": "user",
            "content": "Open the browser and navigate to example.com"
        }
    ]
)

Computer Use は現在プレビュー段階であり、本番環境での利用には十分なテストが推奨されます。

Tool Search の活用

Tool Searchを有効にすると、登録済みのツール群からモデルが最適なツールを自動的に選択します。

response = client.responses.create(
    model="gpt-5.4",
    tools=[
        {"type": "tool_search"},
        # 個別のツール定義は不要 — モデルが自動検索
    ],
    input=[
        {
            "role": "user",
            "content": "Find the latest sales data and create a chart"
        }
    ]
)

GPT-5.2/5.3からの移行ポイント

GPT-5.4への移行で押さえるべき変更点をまとめます。

項目	GPT-5.2/5.3	GPT-5.4
コンテキストウィンドウ	400K	1,050K
Computer Use	非対応	ネイティブ対応
Tool Search	非対応	対応
事実正確性	ベースライン	33%改善
料金（入力）	$2.50/1M	$2.50/1M
Thinking制御	effort指定	5段階（none〜xhigh）

移行時の注意点：

モデルID の変更: gpt-5.2 / gpt-5.3 から gpt-5.4 に変更するだけで基本的な互換性は維持されます
長文コンテキストの課金: 272Kトークンを超える入力は2倍課金になるため、大量のコンテキストを使うワークフローではコスト試算が必要です
新ツールの活用: Computer UseとTool Searchは Responses API 経由で利用するため、Chat Completions APIから移行する場合はエンドポイントの変更が必要です

まとめ

GPT-5.4はネイティブComputer Useを搭載した初の汎用モデルであり、AIエージェントの操作範囲を大きく拡張する
Tool Searchによりトークン効率が47%改善し、大規模ツールエコシステムでの運用コストを削減できる
1,050Kトークンのコンテキストウィンドウで長期的なタスク実行が可能になった一方、272K超の料金体系に注意が必要
コーディングではClaude Opus 4.6、科学推論ではGemini 3.1 Proが優位であり、用途に応じたモデル選択が重要
事実正確性が33%改善されており、信頼性の高い出力が求められるエンタープライズ用途での価値が高い

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up