「12 Days of OpenAI」の最終日 (Day 12) は、o1 モデルに続く新世代モデル 「o3」 と、その軽量版である 「o3-mini」 の登場が明かされました。
残念ながら今すぐ一般公開はされませんが、安全性検証のための研究者向け先行アクセスが用意され、来年初頭には o3-mini → o3 の順で順次リリースされる予定です。
この記事はChatGPT Advent Calendar 2024の23日目です。今年は「12 Days of OpenAI」ということで毎日発表がありましたが、その内容を復習しながらまとめます
o3:フロンティアを塗り替える高性能推論モデル
主な性能指標
-
コード生成&プログラミングタスク
- CodeForces 競技プログラミングにおいて、ELOが 最大 2727 相当を記録(高推論設定時)
- 実運用コード を対象とした SweetBench Verified やコンペティションコードでも o1 より 20% 以上の精度向上
-
数学分野のベンチマーク
- AIME(高校〜大学レベル数学コンテスト相当)で 96.7% を達成(o1 は 83.3%)
- PhD レベル科学問題 (GPQA Diamond) でも 87.7% (o1 は 78%)
-
次世代ベンチマーク
- Epic AI Frontier Math: 最先端の難問でも 25%超 の正答率(他モデルは 2% 未満)
-
ARC AGI: フランスワ・ショレらが提唱する創造的推論力を問うベンチマークで、
- 低推論設定 (Low Compute) で 75.7%
- 高推論設定 (High Compute) で 87.5%
- 人間平均の 85% を上回り、初のトップスコア を記録
これらの結果から、汎用的な推論・問題解決能力が大幅に進化している様子がうかがえます。
o3-mini:リーズナブルかつ強力な推論性能
コスト&推論時間が大幅ダウン
- Reasoning Effort パラメータ(Low / Medium / High)を調整可能
- 低推論設定 (Low) ならコード生成で o1-mini 同等かそれ以上の性能を、極めて低コストかつ高速で実行
- 中推論設定 (Medium) なら o1 相当を上回るケースも
- 実運用の推論レイテンシ(処理遅延)が o1-mini の半分以下になることもあり、GPT-4.0 に近いレスポンス速度を実現
幅広いAPI機能に対応
- Function Calling、Structured Outputs、Developer Messages など o1 相当のAPI機能を網羅
- 例: 数学問題 (AIME) や競技プログラミング (CodeForces)、大規模知識問答 (GPQA) などで高い成果
安全性と「Public Safety Testing」
o3 / o3-mini のリリースにあたり、OpenAI は安全性検証の新ステップを導入。
研究者・開発者が事前にモデルの潜在リスクや脆弱性をテストできる仕組みを設け、
- o3-mini → 来年1月末を目安に正式リリース
- o3 → その後 (2024年初頭〜) に順次一般公開予定
研究者向けテスト応募フォーム
- 2024年1月10日まで 応募受付
- 採択された研究者・セキュリティ専門家はモデルに早期アクセスし、
- 強度なテスト (アタックベクトルや不正利用検証)
- 安全対策の改善提案
-
モデル評価レポート
などを実施可能
「Deliberative Alignment」の導入
OpenAIは、新しい安全性向上手法である 「Deliberative Alignment」 を公開。
- モデル自身の「推論能力 (Chain-of-thought)」を活用し、ルール違反や不正リクエストをより正確に検知
- 従来は学習用データから直接「安全/不安全」を判断していたが、
- モデルが内部で推論 → 「これは一見安全そうに見えて、実はこういう動機を持つリクエストだ」と理由付け。
- 結果的に「不当な拒否」を減らしつつ「安全拒否」を正確化する (同時に改善が難しかった2つの指標を両立)。
まとめ
o3 と o3-mini は、
- 競技プログラミングから数学オリンピック級の問題、
- ARC AGI や Frontier Math といった前人未到のベンチマーク
を大幅に塗り替える、次世代の最先端推論モデル です。
一般公開 はもう少し先(1〜2ヶ月程度)が見込まれますが、
- 安全性テスト への早期参加
-
Deliberative Alignment による安全技術の進化
を経て、2025年前後にはさらに安心かつ革新的なAI が誕生することでしょう。
参考動画: OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - YouTube