1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GPT-5.6(Sol / Terra / Luna)徹底解説:他AIとの比較・バイアス・安全設計まで【一次ソース付き】

1
Posted at

GPT-5.6(Sol / Terra / Luna)徹底解説:他AIとの比較・バイアス・安全設計まで

この記事の前提(重要)
本記事は、OpenAIの公式発表ページおよびWikipediaなどの一次・二次ソースを実際に読んで「裏どり」した事実をベースに書いています。各セクションの末尾に出典を示しました。執筆者(筆者)の推測・考察にあたる部分は 【筆者の推測】 と明記しています。事実と意見を混同しないよう注意して書いていますが、最新情報は必ず一次ソースでご確認ください。


1. GPT-5.6とは何か(3行サマリ)

  • GPT-5.6は、OpenAIが 2026年6月26日 に「限定プレビュー」として公開した大規模言語モデル(LLM)シリーズ。
    • 単一モデルではなく、Sol(フラッグシップ)/ Terra(バランス)/ Luna(高速・低コスト) の3階層構成。
    • 一般公開(GA)は「数週間以内」を予定。プレビューは当初、APIとCodex経由で「信頼できるパートナー」に限定。

出典:OpenAI「Previewing GPT-5.6 Sol: a next-generation model」(2026-06-26) / Wikipedia「GPT-5.6」


2. なぜ「5.6」で、しかも名前が3つあるのか

GPT-5.6では 新しい命名体系 が導入されました。OpenAIの説明によれば、

  • 数字(5.6) = モデルの「世代」を表す
    • Sol / Terra / Luna = 知能・速度・コストの「能力ティア(durable capability tier)」を表し、それぞれ独自のペースで進化していく

という考え方です。つまり「GPT-5.6 Sol」は《第5.6世代のフラッグシップ枠》という意味になります。ラテン語で Sol=太陽、Terra=地球、Luna=月。直感的に「Sol=最上位、Luna=軽量」と覚えると分かりやすいです。

これまでのGPTシリーズは GPT-4 → 4o → 4.5 → 4.1 → 5 → 5.1 → 5.2 → 5.4 → 5.5 → 5.6 と、小刻みなバージョンが乱立していました。モデル選択(model picker)の複雑さはGPT-5の頃から批判されており、Sam Altman自身も手動のモデル選択を「複雑すぎる」と批判していた経緯があります。今回のティア制はその整理の一環と読めます。

出典:OpenAI公式(命名体系の説明) / Wikipedia「GPT-5」(model picker批判の記述)

【筆者の推測】 ティア名を世代から切り離したのは、「Solだけ先に賢くする」「Lunaだけ先に安くする」といった非同期アップデートを可能にし、ユーザーに分かりやすい選択肢を提示する狙いがありそうです。ただしこれは公式が明言した戦略意図ではなく、命名設計からの推測です。


3. 3モデルの性能・価格まとめ

OpenAI公式が公開したAPI価格(100万トークンあたり)は以下の通りです。

モデル 位置づけ 入力 出力
Sol フラッグシップ(最強) $5 $30
Terra 日常業務向けバランス型 $2.50 $15
Luna 高速・最安 $1 $6

公式によれば、Terraは「GPT-5.5に匹敵する性能を、2倍安く」 提供し、Lunaは「最低コストで強い能力」 を狙うとされています。

新機能として、Solには「max reasoning effort(最大推論努力)」という、より深く時間をかけて考えるモードが追加されました。さらに「ultra mode」では、単一エージェントの枠を超えて サブエージェント(subagents) を使い、複雑な作業を並列的に加速します。

価格面では、プロンプトキャッシュがより予測しやすくなり、明示的なキャッシュ区切り(cache breakpoint)と30分のキャッシュ最低保持時間に対応。GPT-5.6以降、キャッシュ書き込みは未キャッシュ入力単価の1.25倍で課金され、キャッシュ読み出しは引き続き90%割引が適用されます。

加えて、2026年7月Cerebras上で最大750トークン/秒 という高速版Solの提供も予告されています(当初は一部顧客限定)。

出典:OpenAI公式(価格・機能・Cerebras)


4. ベンチマークと「他AIとの比較」

ここが多くの読者の関心どころでしょう。Wikipediaの「GPT-5.6」項目が引用している数値(出典はOpenAI公式評価)によると:

コーディング(Terminal-Bench 2.1)

  • GPT-5.6 Sol:88.8%Sol Ultra:91.9% が、Claude Mythos 5:88.0% を上回る
    • GPT-5.6 Luna:82.5% が、Claude Opus 4.8:78.9% を上回る

世代内での比較(同じTerminal-Bench 2.1系の指標)

  • Luna(82.5%)は GPT-5.5(83.4%)をわずかに下回る
    • 一方 Terra(84.3%)は自分の前世代を上回った

つまり「最安のLunaでさえ、競合のClaude Opus 4.8を上回りつつ、前世代5.5にはあと一歩」という、コスト対性能のフロンティアを押し広げる結果になっています。

OpenAI公式は他にも、

  • 生物学ワークフロー(GeneBench v1):長時間のゲノミクス/定量生物学分析で、GPT-5.5より少ないトークンで上回る結果
    • サイバーセキュリティ(ExploitBench / ExploitGym):Solは長時間のセキュリティタスクで「Mythos Previewと競合する性能を、約1/3の出力トークンで」達成。ExploitGymはUCバークレーの研究者がOpenAIらと共同で作成したベンチマーク

を挙げています。

出典:Wikipedia「GPT-5.6」(TerminalBench比較の数値) / OpenAI公式(GeneBench・ExploitBench・ExploitGym)

【筆者の注記】 ベンチマーク数値は すべてOpenAI自身が公開したもの です。ベンダー公表値である以上、第三者の独立検証が出そろうまでは割り引いて読むのが妥当です。実際、前世代GPT-5でも公開直後にNeuralTrustやSPLXといったセキュリティ企業がジェイルブレイクに成功したと報告しており、「公式ベンチ=実運用の安全・性能」とは限りません(出典:Wikipedia「GPT-5」Limitations節)。


5. 安全設計(Safety Stack)が今回の主役

GPT-5.6の発表で最も紙幅が割かれているのは、性能よりむしろ 安全対策 です。要点を整理します。

  • 多層防御(layered safeguards):モデルに学習させた拒否能力、生成中のリアルタイム分類器、アカウント単位のレビュー、差別化アクセス、監視・執行、継続テストを重ねる
    • リアルタイム分類器:サイバー/生物学の悪用を生成中に検知。疑わしい場合は生成を一時停止し、より大きな推論モデルが文脈をレビューしてから出力可否を判断
    • 自動レッドチーミング:「ユニバーサルなジェイルブレイク(多数のプロンプトで通用する攻撃)」を探すため、70万 A100換算GPU時間 を投入
    • 人間の専門家による外部レッドチーミング もプレビュー期間中に継続

注目すべきは 「Cyber Critical(サイバー上の重大閾値)」 への言及です。OpenAIは、Solが自社のPreparedness FrameworkにおけるCyber Critical閾値を 超えていない と評価。ChromiumやFirefoxの評価でバグや「エクスプロイトの構成要素」は見つけたものの、テスト条件下では 完全な攻撃チェーンを自律的に生成しなかった としています。それでも「ベンチの閾値が全ての使い方を捉えられるわけではない」として、段階的リリースを採用しています。

出典:OpenAI公式(安全スタック全般、Preparedness Framework、Chromium/Firefox評価)


6. 「政府との事前調整」という異例の論点

今回もう一つ特徴的なのが、米国政府との関与 です。OpenAIは公式に、

  • 発表前に、モデルの能力とリリース計画を米政府にプレビューした
    • 政府の要請により、まず政府と共有された「信頼できるパートナー」の小グループへの限定プレビューから開始する

と説明しています。同時にOpenAIは「この種の政府アクセスのプロセスが長期的な既定になるべきだとは考えていない」とも明記し、サイバー大統領令(Executive Order)の枠組みづくりを進めながら、数週間以内の広範な提供を目指すとしています。

出典:OpenAI公式(政府関与・限定プレビューの説明)

Axiosの報道(Ina Fried、Ashley Gold記者)は、公式発表だけでは分からない取材ベースの情報を補っています。具体的には、(1) 限定プレビューの対象は 政府が承認した約20社 であること、(2) OpenAIは公開の 約1か月前から政府にモデルをプレビュー しており会合も持っていたこと、(3) OpenAIは段階的リリースの必要性は想定していたものの 政府による厳しい制限までは想定していなかった とされること、です。Axiosは「ワシントンは、最先端の米国製AIモデルを、広く公開する前に政府の審査が必要な製品として扱い始めている」と位置づけています。

出典:Axios「OpenAI releases powerful new GPT-5.6 model」(Ina Fried / Ashley Gold、2026-06-26)https://www.axios.com/2026/06/26/openai-gpt-sol-terra-luna-trump

【筆者の推測】 フロンティアモデルのサイバー能力向上に伴い、「公開前に政府へ通知・調整」という運用が一部で常態化しつつあるように見えます。これはAI規制と国家安全保障が交差する象徴的な事例ですが、規制の方向性自体は流動的で、ここは事実というより筆者の解釈です。


7. バイアスとモデルの「性格」をどう考えるか

ご要望の「バイアスはこうで」という観点を、事実ベースで整理します。LLMのバイアス・挙動は主に学習と調整の各段階で形成されます。

GPT-5世代でOpenAIが公表していた設計思想が参考になります:

  • 「safe completions(安全な補完)」:有害になりうる質問を一律拒否するのではなく、安全で高レベルな回答を返す方針。これにより「危険な質問はより拒否しつつ、無害な情報を求めるユーザーへの過剰な拒否は減らす」ことを狙う
    • 「より批判的に、過度に同調しない(less effusively agreeable)」 応答を返すよう調整された

一方で、GPT-5公開時には 「トーンが平板(flat)」「個性が失われた」 という強い反発がユーザーから起き、Altmanは「GPT-4oで好まれていた点を過小評価していた」と認め、後日「より温かみのある」性格へ調整したという経緯があります。

これは重要な示唆を含みます。モデルの「バイアス」や「性格」は固定ではなく、提供側のチューニング判断・ユーザーの反発・再調整という社会的プロセスの中で動的に決まる ということです。GPT-5.6でもSol/Terra/Lunaで安全設定(safeguardの構成)がモデルごとに異なると明記されており、ティアによって拒否の出方や慎重さの度合いが変わる可能性があります。

出典:Wikipedia「GPT-5」(safe completions・批判的トーン・ユーザー反発とAltmanの対応)

【筆者の推測】 「dual-use(軍民両用)」領域では、防御目的の正当な作業(脆弱性調査・パッチ開発など)と攻撃目的が初期には見分けづらいため、GPT-5.6のセーフガードが正当な利用まで誤ってブロックする「過剰拒否」が起きうる、とOpenAI自身も認めています。バイアスの議論は「政治的偏り」だけでなく、こうした 安全側に倒した過剰拒否 も含めて捉えるべき、というのが筆者の見解です。


8. OpenAIという会社の現在地(文脈)

モデルだけでなく、提供元の状況も理解しておくと記事に厚みが出ます。事実関係のみ:

  • 2015年12月、非営利として設立(Musk、Altman、Sutskeverら)
    • 2019年に「capped-profit(利益上限付き)」へ移行、Microsoftが出資
    • 2025年10月28日、公益法人(PBC)へ再編。OpenAI Foundationが26%、Microsoftが27%、従業員・投資家が47%を保有
    • 2025年のChatGPTは週間7億ユーザー規模に達したと報じられた
    • 2026年6月8日、OpenAIはIPO申請を確認(条件・時期は非開示)

つまりGPT-5.6は、上場準備を進める巨大企業が、政府調整と安全対策を前面に出しながら出してきたモデル、という文脈に置かれています。

出典:Wikipedia「OpenAI」(設立・PBC再編・株式保有比率・ユーザー数・IPO申請)


9. まとめ:GPT-5.6の何が新しいのか

  1. 3ティア制(Sol/Terra/Luna)+ 新命名体系 で、世代と能力ティアを分離
    1. Terraは5.5並みを2倍安く、Lunaは最安で競合Claude Opus 4.8を上回るコスパ
    1. max reasoning effort / ultra mode(サブエージェント) など推論の深さを強化
    1. 安全スタックが主役:多層防御+70万GPU時間の自動レッドチーミング
    1. 政府との事前調整つき限定プレビュー という異例の出し方

性能の派手さよりも「安全とガバナンスを前面に出した慎重なリリース」が今回の本質、というのが事実を追った率直な印象です。


出典一覧(裏どり用)

  • OpenAI公式:Previewing GPT-5.6 Sol: a next-generation model(2026-06-26)
  • https://openai.com/index/previewing-gpt-5-6-sol/
    • Wikipedia「GPT-5.6」 https://en.wikipedia.org/wiki/GPT-5.6
    • Wikipedia「GPT-5」 https://en.wikipedia.org/wiki/GPT-5
    • Wikipedia「OpenAI」 https://en.wikipedia.org/wiki/OpenAI
  • Axios:OpenAI releases powerful new GPT-5.6 model(Ina Fried / Ashley Gold、2026-06-26)https://www.axios.com/2026/06/26/openai-gpt-sol-terra-luna-trump

※ベンチマーク数値の多くはOpenAI公表値です。独立した第三者検証が出そろうまでは、参考値として扱ってください。本記事中の 【筆者の推測】 は事実ではなく解釈です。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?