はじめに
OpenAIが2024年12月21日に公開したDay 12に関する紹介です。
本記事は以下のコンテンツを含んでいます。
- 公開したyoutubeの内容紹介
Day 12
サム・アルトマン:
今日はエキサイティングな内容をお届けします。
私たちはこの12日間のイベントを、最初の推論モデルである O1 を発表してスタートしました。
このモデルを使った皆さんの活用例を見ることができ、また、多くの方からの好評をいただき、とても嬉しく思っています。
私たちはこれを、AIの次のフェーズの始まりだと考えています。このフェーズでは、モデルがより複雑な推論を必要とするタスクに対応できるようになります。
このイベントの最終日である今日は、次の最前線のモデルについてお話しします。
次のモデル名は論理的には O2 になると思うかもしれませんが、Telicaへの敬意を込めて、そして「命名が苦手」というOpenAIの伝統に従い、O3 と名付けました。
実際には、今日 2つのモデル を発表します:
• O3:非常にスマートなモデル。
• O3 Mini:非常に高い性能とコストバランスを提供するモデル。
悪いニュース:これらは本日、一般公開されません。
良いニュース:本日から安全性テストのための公開テストが始まります—ぜひご応募ください!
私たちは、安全性テストを非常に重視しています。特にモデルの能力が高まるにつれ、その重要性は増しています。
この新しい能力レベルでは、安全性テストの一環として、研究者がテストに参加できるよう公開アクセスを提供します。
後ほど、一般公開、デモ、性能について詳しくお伝えします。
それでは、詳しい内容についてマークにお任せします。
O3の能力
マーク(OpenAIリサーチリード):
こんにちは、マークです。O3の能力についてお話しします。
コーディングベンチマーク
-
ソフトウェアスタイルのベンチマーク(SweetBench Verified):
• O3は 71.7% の精度 を達成。O1より20%以上の向上。 -
競技プログラミング(Codeforces ELO):
• O1: 1891 ELO
• O3(攻撃的設定): 2727 ELO
• これはトップクラスの競技プログラマーをも上回る成績です!
数学ベンチマーク
- アメリカ数学コンペティション(AMC):
• O3: 96.7% の精度
• O1: 83.3% の精度 - 大学院レベルの科学(GPQダイヤモンド):
• O3: 87.7%
• O1: 78%
• ちなみに、PhD専門家の平均は、専門分野で 70% 前後です。
最前線数学ベンチマーク(Epic AI)
このデータセットは、公開されていない新しい問題を含む非常に難しいものです。
• O3以前の最新モデル: 2% 未満の精度
• O3: 25% の精度(攻撃的設定)
ARCベンチマーク
グレッグ(ARC賞財団の会長):
こんにちは、ARC賞財団の会長グレッグです。
• ARC AGIベンチマーク: 新しいスキルをその場で学習する能力をテストします。
• O3: ARC AGI ホールドアウトセットで 75.7%(低計算力設定)
• 高計算力設定では: 87.5%、人間レベルの性能を超える
これはAI能力の大きな進展を示しています。
O3 Mini: コスト効率の良いモデル
ホンユ(OpenAI研究者):
こんにちは、ホンユです。
• O3 Miniは、O1 Miniの効率性を基盤に、大幅な改善を加えています。
• 適応型推論時間をサポートし、3つのオプション(低・中・高推論努力)が選べます。
性能のハイライト
-
Codeforces ELO:
• O3 Miniは、全ての推論レベルでO1 Miniを上回る
性能を達成。 -
数学(AMC 2024):
• O3 Mini(中推論): O1 Miniと同等の性能。
• O3 Mini(高推論): より優れた性能を発揮。 -
レイテンシ:
• O3 Mini(低推論): O1 Miniに比べ、レイテンシを大幅に削減。
• GPT-4と同等で1秒未満。
API機能
• 構造化出力、関数呼び出し、開発者向けメッセージに対応。
• O1 Miniに比べ、同等または優れた性能を発揮。
ライブデモ(このセクションだけでも動画を直接みていただいた方がいいです)
ホンユ:
O3 Miniに、困難なデータセット(GPQ)での自分自身の評価スクリプトをPythonで作成するよう依頼しました。
1. スクリプトを生成
2. スクリプトを実行して自らの性能を評価
3. 結果: 61.6% の精度
これにより、O3 Miniが複雑なタスクを効率的に解決する能力を示しました。
締めの言葉
サム・アルトマン:
これらのモデルの開発に携わった全ての方々に感謝します。
来年、ARC賞財団と提携して新しいベンチマークを開発し、進歩を導く予定です。
続報をお楽しみに!