GPT-5.3-Codex-Spark解説 — 1000tok/sの超高速AIコーディング

Last updated at 2026-05-12Posted at 2026-03-04

はじめに

2026年2月13日、OpenAIはGPT-5.3-Codex-Sparkをリサーチプレビューとして公開しました。Codex-Sparkは、GPT-5.3-Codexの軽量版として設計されたリアルタイムコーディング特化モデルです。

最大の特徴は1,000トークン/秒以上の推論速度です。これはフルサイズのGPT-5.3-Codex（約65トークン/秒）の約15倍にあたります。この高速化を実現しているのが、Cerebras社のWafer Scale Engine 3（WSE-3）チップです。OpenAIにとって初めてのNvidia以外のハードウェアでの本番デプロイメントとなります。

この記事で学べること

GPT-5.3-Codex-Sparkの概要と特徴
超高速推論を支えるCerebras WSE-3の技術
ベンチマーク結果と既存AIコーディングツールとの比較
利用方法とアクセス条件

対象読者

AIコーディングツールを活用している開発者
OpenAI Codexの利用を検討している方
AI推論ハードウェアの動向に興味がある方

TL;DR

GPT-5.3-Codex-Sparkはリアルタイムコーディングに特化した軽量モデルで、1,000トークン/秒以上の推論速度を実現
Cerebras WSE-3チップ（4兆トランジスタ、ウェハー1枚丸ごとの巨大チップ）により超低レイテンシを達成
ChatGPT Proユーザー向けにリサーチプレビューとして利用可能（Codex App / CLI / VS Code拡張）

GPT-5.3-Codex-Sparkとは

Codex-Sparkは「リアルタイムの対話的コーディング」を目的に設計された、GPT-5.3-Codexの小型・高速版です。

フルサイズCodexとの位置づけ

項目	GPT-5.3-Codex	Codex-Spark
用途	大規模リファクタリング、設計、セキュリティ監査	リアルタイム編集、クイックフィックス、ペアプログラミング
推論速度	約65トークン/秒	1,000トークン/秒以上
コンテキストウィンドウ	非公開	128Kトークン
入力形式	テキスト	テキストのみ（マルチモーダル非対応）
推奨比率	複雑な20%のタスク	日常的な80%のタスク

OpenAIが公式に推奨するのは「日常のコーディング作業の80%をSparkで、深い推論が必要な20%をフルCodexで」という使い分けです。

主な特徴

超低レイテンシ: Time-to-first-token（最初のトークン生成までの時間）が従来比50%短縮
高速生成: 1,000トークン/秒以上で、コード補完がほぼ瞬時に返る
実用的な精度: SWE-Bench Proではフルサイズと同等水準の精度を維持
128Kコンテキスト: 大規模なファイルやプロジェクトコンテキストに対応

なぜ1,000tok/sが可能なのか — Cerebras WSE-3の技術

Codex-Sparkの速度を支えるのが、Cerebras社のWafer Scale Engine 3（WSE-3）です。通常のGPU/チップとは根本的に異なるアーキテクチャを採用しています。

WSE-3の主要スペック

スペック	Cerebras WSE-3	Nvidia H100（参考）
トランジスタ数	4兆個	800億個
ダイサイズ	46,255 mm²（ウェハー1枚分）	約814 mm²
オンチップメモリ	44GB SRAM	80GB HBM3
AIコア数	90万コア	非公開
ピーク性能	125 PFLOPS	約4 PFLOPS（FP8）
プロセス	TSMC 5nm	TSMC 4nm

WSE-3のオンチップメモリは44GB SRAMで、H100の80GB HBM3と比べると容量は小さいですが、SRAMはチップ上に直接搭載されているため、HBM（High Bandwidth Memory）と比べてアクセスレイテンシが桁違いに低いという特徴があります。

なぜ速いのか

通常のAI推論では、複数のGPUチップ間でデータをやり取りするオーバーヘッドが発生します。WSE-3はウェハー1枚をまるごと1つのチップとして利用する「ウェハースケール」設計により、チップ間通信のレイテンシを完全に排除しています。

GPUベースのシステムでは、トークン生成のたびにチップ間のデータ転送が発生しますが、WSE-3ではすべての演算がオンチップで完結します。これが1,000トークン/秒以上という速度の根本的な理由です。

OpenAI × Cerebrasパートナーシップ

2026年1月に発表されたこのパートナーシップの概要は以下のとおりです。

Codex-SparkはOpenAI初の非Nvidiaハードウェアでの本番デプロイメント
100億ドル超の契約規模で、2028年までに750MWのCerebras対応コンピュートをフェーズ的に稼働予定
低レイテンシ推論に特化したインフラストラクチャの構築（世界最大規模の高速AI推論デプロイメント）

これはAI業界にとって「推論最適化は専用ハードウェアがGPUに勝てる領域がある」というシグナルでもあります。

ベンチマーク・性能比較

コーディングベンチマーク

ベンチマーク	GPT-5.3-Codex	Codex-Spark	備考
SWE-Bench Pro（精度）	56.8%	同等水準	実用的な精度を維持
SWE-Bench Pro（速度）	15〜17分	2〜3分	5〜8倍高速
Terminal-Bench 2.0	77.3%	58.4%	複雑なタスクでは精度トレードオフあり

SWE-Bench Proは実際のソフトウェアエンジニアリングタスクを測定するベンチマークです。Codex-Sparkはフルサイズと同等の精度を保ちつつ、処理時間を大幅に短縮しています。一方、複雑なターミナル操作を測定するTerminal-Bench 2.0では精度差が見られ、タスクの複雑さに応じた使い分けが求められます。

推論速度の比較（他社モデル）

モデル	推論速度（トークン/秒）	Codex-Sparkとの差
GPT-5.3-Codex-Spark	1,000以上	—
Gemini 3 Flash	約300	約3.3倍差
Claude Haiku 4.5	約200	約5倍差
DeepSeek Coder V3	約180	約5.5倍差
GPT-5.2 Instant	約150	約6.7倍差

推論速度ではCodex-Sparkが他のコーディングAIモデルを大きく引き離しています。ただし、これはCerebras WSE-3という専用ハードウェアの恩恵が大きく、汎用GPUベースの他モデルとは前提条件が異なる点に留意が必要です。

上記の他社モデルの推論速度は、サードパーティのベンチマーク記事（NxCode, 2026年2月）に基づく参考値です。各モデルの速度はインフラ構成や負荷状況により変動します。

使い方・アクセス方法

2026年3月時点では、ChatGPT Proサブスクリプション（月額200ドル）が必要です。以下の3つの方法でアクセスできます。

1. Codex App（Web）

ChatGPTのCodexインターフェースからモデル選択でSparkを指定できます。

2. Codex CLI

ターミナルからCodex CLIを使用する方法です。

# Codex CLIのインストール
npm i -g @openai/codex

インストール後、codex コマンドで対話型TUI（Terminal UI）セッションが起動します。セッション内で /model コマンドを使用してSparkモデルに切り替えることができます。

CLIでは、インタラクティブモードでは自動的にSparkが選択され、自律タスクモードではフルCodexが選択される仕組みになっています。

3. VS Code拡張

VS CodeでOpenAI Codex拡張をインストール
設定画面でモデルを「Codex-Spark」に変更
インライン補完やサイドバーからコード生成を利用

アクセス条件まとめ

項目	内容
プラン	ChatGPT Pro（月額200ドル）
ステータス	リサーチプレビュー
対応ツール	Codex App / CLI / VS Code拡張
API	一部のデザインパートナーに限定提供中
Plus/Teamプラン	プレビュー期間中は利用不可

注意点・制限事項

Codex-Sparkは強力なツールですが、以下の制限を理解した上で活用する必要があります。

精度のトレードオフ

Terminal-Bench 2.0ではフルCodexの77.3%に対してSparkは58.4%と、複雑なタスクでは精度が低下します。大規模なリファクタリングやアーキテクチャ設計など、深い推論が求められるタスクにはフルCodexの使用が推奨されます。

コスト

ChatGPT Proサブスクリプション（月額200ドル）が前提となるため、個人開発者にとってはコストバリアが存在します。Plus/Teamプランへの展開時期は未発表です。

コンテキストウィンドウ

128Kトークンのコンテキストウィンドウは多くのユースケースに十分ですが、モノレポや巨大なコードベースを一括で扱う場合には制約となる可能性があります。

リサーチプレビュー

現時点ではリサーチプレビューのため、本番環境での利用には注意が必要です。レート制限も通常のOpenAIモデルとは別枠で設定されています。

まとめ

GPT-5.3-Codex-Sparkはリアルタイムコーディングに特化した軽量モデルで、Cerebras WSE-3チップにより1,000トークン/秒以上の推論速度を実現
SWE-Bench Proでフルサイズと同等の精度を維持しつつ、処理速度を5〜8倍に向上
OpenAI初の非Nvidiaデプロイメントであり、AI推論ハードウェアの多様化を示す転換点
現在はChatGPT Pro向けリサーチプレビュー。API一般提供やPlusプラン対応は今後に期待

「日常のコーディング80%をSparkで、深い推論20%をフルCodexで」という使い分けが、今後のAIコーディングワークフローの標準になるかもしれません。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up