0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GPT-5.4入門 — ネイティブPC操作・Tool Search・APIの全貌

0
Posted at

GPT-5.4 Overview

はじめに

2026年3月5日、OpenAIは最新フラッグシップモデル GPT-5.4 を正式リリースしました。汎用モデルとしては初めて**ネイティブなコンピュータ操作(Computer Use)**を搭載し、AIエージェントがマウスやキーボードを通じてデスクトップアプリケーションを直接操作できるようになりました。

この記事で学べること

  • GPT-5.4の主要な新機能(Computer Use / Tool Search / 1Mコンテキスト)
  • 各ベンチマークにおける競合モデルとの性能比較
  • APIの料金体系とモデルバリアント
  • Python APIを使った実装の基本パターン

対象読者

  • OpenAI APIを利用している開発者
  • AIエージェント開発に関心があるエンジニア
  • GPT-5.2/5.3からの移行を検討している方

TL;DR

  • GPT-5.4は汎用モデル初のネイティブComputer Useを搭載し、OSWorld 75.0%(人間超え)を達成
  • Tool Searchにより大規模ツールエコシステムでのトークン使用量を47%削減
  • 1,050Kトークンのコンテキストウィンドウ(272K超は2倍課金)
  • 料金は$2.50/$15.00(入力/出力・1Mトークンあたり)
  • 事実誤認率がGPT-5.2比で33%改善

GPT-5.4 Architecture

GPT-5.4の主要な新機能

1. ネイティブComputer Use

GPT-5.4は、スクリーンショットの認識とマウス・キーボード操作をモデル自体に組み込んでいます。Playwrightなどのライブラリを通じたコード生成による操作と、スクリーンショットに応答するダイレクト操作の両方に対応しています。

主な活用シーン:

ユースケース 説明
ブラウザ自動操作 Webサイトのフォーム入力・ナビゲーション
デスクトップ自動化 Excel・スプレッドシートの操作
クロスアプリワークフロー 複数アプリケーション間の連携処理
テスト自動化 UIの動作検証・スクリーンショット比較

OSWorldベンチマークでは**75.0%**を記録し、人間のベースライン(72.4%)を上回りました。これは、AIモデルがデスクトップ操作タスクにおいて人間レベルの性能に到達したことを示しています。

2. Tool Search

大規模なツールエコシステム(MCP、プラグイン、スキルなど)を効率的に検索・選択する機能です。従来は利用可能なすべてのツール定義をコンテキストに含める必要がありましたが、Tool Searchではモデルが必要なツールを動的に検索・発見します。

メリット:

  • トークン使用量を47%削減
  • ツール数が多い環境でもインテリジェンスを維持
  • MCP、アプリコネクタ、スキルを横断的に検索

3. 1,050Kトークン コンテキストウィンドウ

GPT-5.4では最大1,050,000トークンのコンテキストウィンドウを利用できます。これにより、大規模なコードベース全体の分析や、長期間にわたるエージェントの計画・実行・検証が可能になります。

注意: 272,000トークンを超える入力は、入力料金が2倍($5.00/1Mトークン)、出力料金が1.5倍($22.50/1Mトークン)になります。

Benchmark Comparison

ベンチマーク比較

GPT-5.4、Claude Opus 4.6、Gemini 3.1 Proの主要ベンチマーク結果を比較します。OpenAI公式発表および各社の公開データに基づいています。

ベンチマーク GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro 評価対象
OSWorld 75.0% デスクトップ操作
GDPval 83.0% 知識労働
SWE-Bench Verified 77.2% 80.8% 80.6% コーディング
GPQA Diamond 92.8% 91.3% 94.3% 科学推論
ARC-AGI-2 73.3% 68.8% 77.1% 抽象推論
MMMU-Pro 81.2% 85.1% 80.5% マルチモーダル

※ベンチマーク値は各社の公式発表および第三者評価に基づきます。評価条件により数値が異なる場合があります。

ポイント:

  • Computer Use・知識労働: GPT-5.4が優位(OSWorld 75.0%、GDPval 83.0%)
  • コーディング: Claude Opus 4.6がリード(SWE-Bench 80.8%)
  • 科学推論・抽象推論: Gemini 3.1 Proが最強(GPQA 94.3%、ARC-AGI 77.1%)
  • 単一の「最強モデル」は存在せず、用途に応じた選択が重要

モデルバリアントと料金

GPT-5.4には3つのバリアントが用意されています。

Model Variants

バリアント一覧

バリアント モデルID 用途
Standard gpt-5.4 汎用タスク
Thinking gpt-5.4-thinking 推論強化(5段階のeffort制御)
Pro gpt-5.4-pro 最高精度のエンタープライズ用途

料金体系(1Mトークンあたり)

項目 Standard Pro
入力 $2.50 $30.00
キャッシュ入力 $0.25
出力 $15.00 $180.00
長文入力(>272K) $5.00
長文出力(>272K時) $22.50

Batch APIおよびFlex処理モードでは半額料金が適用されます。

Thinking バリアントの推論レベル

gpt-5.4-thinking では、reasoning.effort パラメータで推論の深さを5段階で制御できます。

レベル 用途 コスト影響
none 推論不要の単純タスク 最小
low 軽量な判断
medium 一般的な推論タスク
high 複雑な分析・計画
xhigh 数学・科学の難問 最大

APIの基本的な使い方

Chat Completions API

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain the key features of GPT-5.4."}
    ]
)

print(response.choices[0].message.content)

Thinking モードの利用

response = client.chat.completions.create(
    model="gpt-5.4-thinking",
    messages=[
        {"role": "user", "content": "Solve this step by step: ..."}
    ],
    reasoning={"effort": "high"}
)

Computer Use(Responses API)

Computer Useは Responses API を通じて利用します。モデルがスクリーンショットを受け取り、マウスクリックやキーボード入力のアクションを返す仕組みです。

response = client.responses.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use_preview"}],
    input=[
        {
            "role": "user",
            "content": "Open the browser and navigate to example.com"
        }
    ]
)

Computer Use は現在プレビュー段階であり、本番環境での利用には十分なテストが推奨されます。

Tool Search の活用

Tool Searchを有効にすると、登録済みのツール群からモデルが最適なツールを自動的に選択します。

response = client.responses.create(
    model="gpt-5.4",
    tools=[
        {"type": "tool_search"},
        # 個別のツール定義は不要 — モデルが自動検索
    ],
    input=[
        {
            "role": "user",
            "content": "Find the latest sales data and create a chart"
        }
    ]
)

GPT-5.2/5.3からの移行ポイント

GPT-5.4への移行で押さえるべき変更点をまとめます。

項目 GPT-5.2/5.3 GPT-5.4
コンテキストウィンドウ 400K 1,050K
Computer Use 非対応 ネイティブ対応
Tool Search 非対応 対応
事実正確性 ベースライン 33%改善
料金(入力) $2.50/1M $2.50/1M
Thinking制御 effort指定 5段階(none〜xhigh)

移行時の注意点:

  1. モデルID の変更: gpt-5.2 / gpt-5.3 から gpt-5.4 に変更するだけで基本的な互換性は維持されます
  2. 長文コンテキストの課金: 272Kトークンを超える入力は2倍課金になるため、大量のコンテキストを使うワークフローではコスト試算が必要です
  3. 新ツールの活用: Computer UseとTool Searchは Responses API 経由で利用するため、Chat Completions APIから移行する場合はエンドポイントの変更が必要です

まとめ

  • GPT-5.4はネイティブComputer Useを搭載した初の汎用モデルであり、AIエージェントの操作範囲を大きく拡張する
  • Tool Searchによりトークン効率が47%改善し、大規模ツールエコシステムでの運用コストを削減できる
  • 1,050Kトークンのコンテキストウィンドウで長期的なタスク実行が可能になった一方、272K超の料金体系に注意が必要
  • コーディングではClaude Opus 4.6、科学推論ではGemini 3.1 Proが優位であり、用途に応じたモデル選択が重要
  • 事実正確性が33%改善されており、信頼性の高い出力が求められるエンタープライズ用途での価値が高い

参考リンク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?