はじめに
2026年3月、OpenAIがGPT-5.2-Codexをリリースしました。先行するGPT-5.3-Codex-Sparkが「1,000 tok/sの超高速推論」で注目を集めた一方、GPT-5.2-Codexは実務で使える3つの機能強化を軸にしています。
- コンテキスト圧縮(Context Compaction): 400Kトークンのコンテキストウィンドウを効率的に活用し、長時間のエージェントセッションを可能にする仕組み
- Agent Skills: 再利用可能なタスクバンドルをCodex CLIやIDE拡張に追加できる新機能
- サイバーセキュリティ能力: CVE-Bench 87%を達成し、脆弱性検出・パッチ生成を自動化
この記事では、GPT-5.2-Codexの技術的な特徴をOpenAI公式ドキュメントに基づいて解説し、APIでの実装方法を紹介します。
この記事で学べること
- コンテキスト圧縮の仕組みとAPI実装パターン
- Agent Skillsの構成・作成・導入方法
- セキュリティ機能の活用法とベンチマーク結果
- GPT-5.3-Codex-Sparkとの使い分け
対象読者
- OpenAI APIを利用してエージェント型アプリケーションを開発するエンジニア
- Codex CLIやIDE拡張を業務で活用している開発者
- AIを活用したセキュリティ自動化に関心がある方
TL;DR
- GPT-5.2-Codexは400Kトークンのコンテキストウィンドウと自動圧縮機能を搭載し、数時間にわたるエージェントセッションを実現する
- Agent Skillsにより、定型タスクを再利用可能なバンドルとして管理・配布できる
- **CVE-Bench 87%**を達成し、脆弱性の検出からパッチ生成までを自動化できる
- API入力$1.75/100万トークン、出力$14.00/100万トークンで利用可能
モデルスペックと位置づけ
GPT-5.2-Codexは、汎用モデルGPT-5.2をエージェント型コーディングタスクに最適化したモデルです。公式ドキュメントでは「長期的なエージェント型コーディングタスクに最適化された最も知的なコーディングモデル」と位置づけられています。
主要スペック
| 項目 | GPT-5.2-Codex | GPT-5.3-Codex |
|---|---|---|
| コンテキストウィンドウ | 400,000トークン | 400,000トークン |
| 最大出力トークン | 128,000 | 128,000 |
| SWE-Bench Verified | 80.0% | — |
| CVE-Bench | 87% | — |
| Terminal-Bench 2.0 | — | 77.3% |
| 入力コスト(100万トークン) | $1.75 | $1.75 |
| キャッシュ入力コスト | $0.175 | $0.175 |
| 出力コスト(100万トークン) | $14.00 | $14.00 |
| Reasoning Effort | low / medium / high / xhigh | low / medium / high / xhigh |
| 入力モダリティ | テキスト・画像 | テキスト・画像 |
| 知識カットオフ | 2025年8月31日 | 2025年8月31日 |
GPT-5.3-Codexは「最も高性能なエージェント型コーディングモデル」として後継に位置づけられていますが、GPT-5.2-Codexはコンテキスト圧縮やAgent Skillsの導入例が豊富で、安定した選択肢です。
なお、GPT-5.3-Codex-SparkはCerebras WSE-3チップで約1,000 tok/sの高速推論を実現する派生モデルで、128Kトークンのコンテキストウィンドウを持ちます。ChatGPT Proサブスクライバー向けのリサーチプレビューとして提供されています。
ベンチマーク結果
公式に公開されているベンチマーク結果は以下の通りです。
| ベンチマーク | スコア | 測定内容 |
|---|---|---|
| SWE-Bench Verified | 80.0% | 実際のGitHub Issueの解決能力 |
| SWE-Bench Pro | 55.6% | 複数ファイルにまたがる複雑な問題 |
| GPQA Diamond | 92.4% | 大学院レベルの科学問題 |
| CVE-Bench | 87% | 既知の脆弱性の特定・修正能力 |
| Tau2-bench | 98.7% | エージェントのツール呼び出し精度 |
GPT-5.1からの改善幅は、SWE-Bench Verifiedで3.7ポイント(76.3% → 80.0%)です。
コンテキスト圧縮(Context Compaction)
概要
コンテキスト圧縮は、長い会話履歴を自動的に要約し、後続のターンに必要な状態を保持したまま入力サイズを削減する機能です。400Kトークンのコンテキストウィンドウを持つGPT-5.2-Codexにおいて、手動でのコンテキスト管理なしに数時間のエージェントセッションを実行できます。
OpenAI公式ドキュメントでは、「品質・コスト・レイテンシのバランスを取りながら会話サイズを削減する」と説明されています。
2つの実装パターン
コンテキスト圧縮には、サーバーサイド圧縮とスタンドアロンCompactエンドポイントの2つの方法があります。
パターン1: サーバーサイド圧縮
Responses APIのリクエストにcontext_managementパラメータを追加する方法です。トークン数が設定した閾値を超えると、サーバー側で自動的に圧縮が実行されます。
from openai import OpenAI
client = OpenAI()
conversation = [
{"role": "user", "content": "このリポジトリのアーキテクチャを分析してください"}
]
response = client.responses.create(
model="gpt-5.2-codex",
input=conversation,
store=False,
context_management=[
{
"type": "compaction",
"compact_threshold": 200000
}
],
)
compact_thresholdは圧縮が発動するトークン数の閾値です。上記の例では、レンダリング後のトークン数が200,000を超えた時点で自動圧縮が行われます。
パターン2: スタンドアロンCompactエンドポイント
/responses/compactエンドポイントを直接呼び出す方法です。圧縮のタイミングを完全に制御できます。
from openai import OpenAI
client = OpenAI()
# 長い会話履歴を手動で圧縮
compacted = client.responses.compact(
model="gpt-5.2",
input=long_input_items,
)
# 圧縮結果を次のリクエストに使用
response = client.responses.create(
model="gpt-5.2-codex",
input=compacted.output,
)
圧縮のベストプラクティス
OpenAI公式ドキュメントに記載されている推奨事項は以下の通りです。
- レイテンシ最適化: 圧縮後、最新の圧縮アイテムより前のアイテムを削除してリクエストサイズを削減する
-
入力チェーン: ステートレス配列または
previous_response_idチェーンのいずれかを一貫して使用する - 出力の扱い: スタンドアロンCompactの結果を手動でプルーニングせず、返却されたウィンドウをそのまま次の呼び出しに渡す
圧縮アイテムは暗号化された不透明なオブジェクトですが、後続ターンに必要な推論状態を内部的に保持しています。中身を直接読み取ることはできません。
Agent Skills
概要
Agent Skillsは、Codex CLIやIDE拡張で利用できる再利用可能なタスクバンドルです。指示文(SKILL.md)とオプションのスクリプト・リファレンスファイルで構成され、明示的に呼び出すか、プロンプトの内容に基づいて自動的に選択されます。
ディレクトリ構造
Agent Skillsは以下の構造で定義します。
my-skill/
├── SKILL.md # 必須: スキル定義ファイル
├── scripts/ # 任意: 実行スクリプト
├── references/ # 任意: 参照ドキュメント
├── assets/ # 任意: アイコン等のアセット
└── agents/
└── openai.yaml # 任意: UI・ポリシー設定
SKILL.mdの書き方
SKILL.mdにはYAMLフロントマターとMarkdown形式の指示を記述します。
---
name: test-runner
description: >
プロジェクトのテストスイートを実行し、失敗したテストの
原因を分析して修正案を提示するスキル。
テスト実行・テスト修正・CI失敗の調査時に起動する。
---
## 手順
1. `npm test` または `pytest` でテストスイートを実行する
2. 失敗したテストのスタックトレースを分析する
3. 関連するソースコードを特定する
4. 修正案を提示し、ユーザーの承認後に適用する
## 注意事項
- テストフレームワークはプロジェクトの設定に従う
- 修正は最小限のスコープに留める
descriptionフィールドは、暗黙的な呼び出し(プロンプトからの自動選択)の判断基準になるため、いつ起動すべきか・いつ起動すべきでないかを明確に記述することが重要です。
インストールパス
Codexは以下の順序でスキルを検出します。スコープが狭いものほど優先されます。
| スコープ | パス | 用途 |
|---|---|---|
| リポジトリ(CWD) | .agents/skills/ |
フォルダ固有のスキル |
| リポジトリ(ルート) | $REPO_ROOT/.agents/skills/ |
プロジェクト全体のスキル |
| ユーザー | $HOME/.agents/skills/ |
個人用のクロスプロジェクトスキル |
| システム | /etc/codex/skills/ |
システムレベルのデフォルト |
| ビルトイン | Codex同梱 |
$skill-creator等の組み込みスキル |
呼び出し方法
明示的呼び出し: プロンプト内で$skill-nameと記述します。
$test-runner でこのプロジェクトのテストを実行して
暗黙的呼び出し: プロンプトの内容がスキルのdescriptionに合致すると、Codexが自動的にスキルを選択します。
設定ファイル(openai.yaml)
UIでの表示名やアイコン、暗黙的呼び出しの許可設定を制御できます。
interface:
display_name: "テストランナー"
brand_color: "#10B981"
policy:
allow_implicit_invocation: true
dependencies:
tools:
- type: "mcp"
value: "shell"
allow_implicit_invocation: falseに設定すると、$skill-nameによる明示的な呼び出しのみ受け付けます。
スキル管理
スキルを削除せずに無効化するには、~/.codex/config.tomlに以下を追加します。
[[skills.config]]
path = "/path/to/my-skill/SKILL.md"
enabled = false
サイバーセキュリティ能力
CVE-Bench 87%の意味
CVE-Benchは、既知の脆弱性(Common Vulnerabilities and Exposures)を特定し、パッチを生成するモデルの能力を測定するベンチマークです。GPT-5.2-Codexは87%のスコアを達成しており、以下の能力が検証されています。
- 脆弱性パターンの検出: ソースコード内の脆弱性パターンを自動検出
- CVEパッチ生成: 既知の脆弱性に対する修正パッチの自動生成
- セキュリティ監査の補助: 大規模コードベースのセキュリティ監査を支援
- コードパス分析: 潜在的な脆弱性につながるコードパスの特定
xhigh推論モードとの組み合わせ
GPT-5.2-Codexは4段階の推論レベル(low / medium / high / xhigh)をサポートしています。セキュリティ分析では、xhighモードを使用することで最高精度の分析が可能です。
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.2-codex",
reasoning={"effort": "xhigh"},
input=[
{
"role": "user",
"content": "以下のコードのセキュリティ脆弱性を分析し、修正パッチを生成してください:\n\n"
+ source_code
}
],
)
xhighモードは拡張された推論チェーンを使用するため、レイテンシが増加しますが、複雑なセキュリティ問題の分析精度が向上します。
エンタープライズでの活用
OpenAI公式ブログによると、Codexの利用は急速に拡大しており、エンタープライズAIエージェント戦略の中核として位置づけられています。GPT-5.2-Codexのセキュリティ機能は、以下のような場面で活用が想定されます。
- CIパイプラインに組み込んだ自動セキュリティスキャン
- プルリクエスト時の脆弱性チェック
- レガシーコードのセキュリティ監査
- 大規模リファクタリング時のセキュリティ回帰テスト
Codexモデルの使い分けガイド
Codexモデルファミリーは複数のモデルで構成されており、用途に応じた使い分けが推奨されます。
| ユースケース | 推奨モデル | 理由 |
|---|---|---|
| 長時間のリファクタリング | GPT-5.2-Codex | コンテキスト圧縮で長期セッション対応 |
| セキュリティ監査 | GPT-5.2-Codex | CVE-Bench 87%、xhigh推論 |
| 大規模マイグレーション | GPT-5.2-Codex | Agent Skillsで定型作業を自動化 |
| 最新のベンチマーク性能 | GPT-5.3-Codex | 最も高性能なCodexモデル |
| リアルタイムコード補完 | GPT-5.3-Codex-Spark | 1,000 tok/sの高速レスポンス(Pro限定) |
Codex Windowsアプリの登場
2026年3月4日、CodexアプリがWindowsに対応しました。Mac版のリリースから約1か月で、Microsoft Storeからインストール可能になっています。
OpenAIによると、Mac版は公開1週間で100万ダウンロードを突破し、Codex全体で週間アクティブユーザー160万人に達しています。
Windows版の技術的な特徴として、初のWindowsネイティブエージェントサンドボックスが挙げられます。OS レベルの制限トークン、ファイルシステムACL、専用のサンドボックス分離を使用し、PowerShell環境でもエージェントを安全に実行できます。
Stack Overflowの2025年調査では、開発者の49.5%がWindowsを業務用メインOSとして使用しており、この対応は大きな意味を持ちます。
まとめ
GPT-5.2-Codexは、以下の3つの機能強化により、エージェント型コーディングの実用性を大きく向上させています。
-
コンテキスト圧縮:
compact_thresholdの設定だけで、長時間セッションのコンテキスト管理を自動化できる -
Agent Skills:
SKILL.mdで定型タスクをバンドル化し、チーム全体で共有・再利用できる - セキュリティ: CVE-Bench 87%の脆弱性検出能力をxhigh推論モードで活用できる
速度が求められる場面ではGPT-5.3-Codex-Spark、品質・セキュリティ・長期セッションが求められる場面ではGPT-5.2-Codexが適しています。最新のベンチマーク性能を求める場合はGPT-5.3-Codexも選択肢に入ります。