OpenAIが6月26日に公開した次世代モデル群 GPT-5.6 で、私がまず目を留めたのはベンチマークの最高記録ではない。同じセキュリティ評価をこなすのに、前世代より出力トークンがおよそ3分の1で済んだ、という一文だ。エージェントを回す側からすると、これは「賢くなった」より「同じ仕事が安くなった」に近い。今回の更新は、能力競争というより推論コストの引き下げと、その予測しやすさに重心が寄っている。
公開されたのは1モデルではなく、性格の違う3つだ。名前はSol(太陽)、Terra(地球)、Luna(月)。命名どおりサイズと価格で素直に三段に分かれていて、用途で選び分ける前提になっている。
太陽・地球・月の三段構え
OpenAI自身の位置づけでは、Solが「フロンティアの推論と長時間のエージェント作業」向けの最上位、Terraが「GPT-5.5と同等の性能を半額で出す」日常用の中位、Lunaが最速・最安の入口だ(OpenAIの告知)。価格(100万トークンあたり)は次の通りで、複数ソースで一致している。
| モデル | 入力 | 出力 | 位置づけ |
|---|---|---|---|
| Sol | $5 | $30 | 最上位・長時間エージェント |
| Terra | $2.50 | $15 | 5.5同等を半額で |
| Luna | $1 | $6 | 最速・最安 |
ここで効いてくるのが、冒頭のトークン効率だ。エージェントの実コストは入力よりも、モデルが吐く出力トークンに引っ張られやすい。思考や中間ステップを長々と出力すれば、その分だけ課金が積み上がる。OpenAIの評価によれば、SolはCTF型のサイバー評価でGPT-5.5をわずかに上回りつつ、出力トークンは大幅に少ない。コーディングのTerminal-Bench 2.1でも新記録を主張し、後述のultraモードでは9割超に達したとしている。生物学系のSecureBioでも5.5から約9ポイントの上積みがあるという。いずれも同社の自己申告で、第三者の追試はこれからだが、訴求点が「点数」ではなく「同じ点数を安く」に移っているのは読み取れる。
新しい動作モードも2つ加わった。難問向けに思考量を引き上げる「max reasoning effort」と、サブエージェントを動員して複雑な作業を分担させる「ultra mode」だ。後者は、1つのモデル呼び出しの裏で複数の補助エージェントが走るイメージで、長い手順を要するタスクの完遂率を底上げする狙いに見える。
キャッシュが「いつ消えるか分からない」問題を畳む
地味だが実務で効くのが、プロンプトキャッシュの作り直しだ。LLMのプロンプトキャッシュは、システムプロンプトやツール定義のような毎回同じ前置きを再計算せず使い回す仕組みで、うまく当たれば入力コストを大きく削れる。問題は、これまでのOpenAIのキャッシュが自動・暗黙で、いつ失効するかが不透明だったことだ。エージェントのループのように同じ前置きを何十回も送る用途では、キャッシュが切れた瞬間に課金が跳ね、コスト試算が読みにくかった。
GPT-5.6は、ここを明示的なキャッシュ区切り(cache breakpoint)と、最低30分のキャッシュ保持に変えた(OpenAI Help Center)。どこをキャッシュするかを開発者が指で押さえられて、しかも30分は残ると保証される。代わりにキャッシュへの書き込みは未キャッシュ入力単価の1.25倍で課金され、読み出しは従来どおり9割引きが効く。
書き込み時に少し割高を払う代わりに、キャッシュがいつまで残るかの予測可能性を得る
構図としては、最初の登録で1.25倍を一度払い、以降の読み出しを1割の単価で回収する形だ。同じシステムプロンプトとツールスキーマを使い回すエージェントほど、この回収が効く。設計としてはAnthropicが先に採っていた明示的キャッシュ制御に寄せた格好で、自動で楽だが読めない方式から、手間はあるが見積もれる方式へ舵を切ったと理解すると腑に落ちる。
出たのに、まだ触れない
技術面とは別に、今回いちばん引っかかったのは出し方だ。GPT-5.6は限定プレビューで、APIとCodex経由の一部の信頼済みパートナーにしか開かれていない。ChatGPTにはまだ載らず、一般提供は「数週間のうちに」とされる。しかもOpenAIは、この絞った提供が「米政府の要請による」もので、一時的な政府の安全性レビューを挟むためだと明言した(VentureBeat)。
これは少し前にあった、外国籍ユーザーへの提供を止めた輸出規制の話とは別物だ。あちらは「誰に売れるか」の制約、今回は「いつ世に出せるか」をリリース前の政府レビューが握っているという話で、フロンティアモデルの公開そのものに事前審査のゲートが付いた格好になる。サイバーや生物学の能力向上を前面に出したモデルだけに、出荷の前段に審査が挟まる流れは今後も続きそうで、ここは続報を追う価値がある。
実務的な持ち帰りはこうだ。今すぐ叩けるわけではないが、一般提供されたら選び方は素直になる。常用の生成や要約はTerraが第一候補で、GPT-5.5を回しているならほぼそのまま半額に置き換えられる。長い手順を伴うエージェントだけSolに上げ、軽い用途はLunaで削る。そして長時間ループを組むなら、明示キャッシュの区切りを意識して前置きを固定しておく。点数表より先に、出力トークンとキャッシュの設計を見るのが、このモデル世代の付き合い方になる。