o3 and o3-mini—12 Days of OpenAI: Day 12の紹介

Last updated at 2024-12-21Posted at 2024-12-21

はじめに

OpenAIが2024年12月21日に公開したDay 12に関する紹介です。
本記事は以下のコンテンツを含んでいます。

公開したyoutubeの内容紹介

Day 12

サム・アルトマン:
今日はエキサイティングな内容をお届けします。
私たちはこの12日間のイベントを、最初の推論モデルである O1 を発表してスタートしました。
このモデルを使った皆さんの活用例を見ることができ、また、多くの方からの好評をいただき、とても嬉しく思っています。

私たちはこれを、AIの次のフェーズの始まりだと考えています。このフェーズでは、モデルがより複雑な推論を必要とするタスクに対応できるようになります。
このイベントの最終日である今日は、次の最前線のモデルについてお話しします。

次のモデル名は論理的には O2 になると思うかもしれませんが、Telicaへの敬意を込めて、そして「命名が苦手」というOpenAIの伝統に従い、O3 と名付けました。

実際には、今日 2つのモデルを発表します：
• O3：非常にスマートなモデル。
• O3 Mini：非常に高い性能とコストバランスを提供するモデル。

悪いニュース：これらは本日、一般公開されません。
良いニュース：本日から安全性テストのための公開テストが始まります—ぜひご応募ください！

私たちは、安全性テストを非常に重視しています。特にモデルの能力が高まるにつれ、その重要性は増しています。
この新しい能力レベルでは、安全性テストの一環として、研究者がテストに参加できるよう公開アクセスを提供します。

後ほど、一般公開、デモ、性能について詳しくお伝えします。
それでは、詳しい内容についてマークにお任せします。

O3の能力

マーク（OpenAIリサーチリード）:
こんにちは、マークです。O3の能力についてお話しします。

コーディングベンチマーク

ソフトウェアスタイルのベンチマーク（SweetBench Verified）:
• O3は 71.7% の精度を達成。O1より20%以上の向上。
競技プログラミング（Codeforces ELO）:
• O1: 1891 ELO
• O3（攻撃的設定）: 2727 ELO
• これはトップクラスの競技プログラマーをも上回る成績です！

数学ベンチマーク

アメリカ数学コンペティション（AMC）:
• O3: 96.7% の精度
• O1: 83.3% の精度
大学院レベルの科学（GPQダイヤモンド）:
• O3: 87.7%
• O1: 78%
• ちなみに、PhD専門家の平均は、専門分野で 70% 前後です。

最前線数学ベンチマーク（Epic AI）

このデータセットは、公開されていない新しい問題を含む非常に難しいものです。
• O3以前の最新モデル: 2% 未満の精度
• O3: 25% の精度（攻撃的設定）

ARCベンチマーク

グレッグ（ARC賞財団の会長）:
こんにちは、ARC賞財団の会長グレッグです。
• ARC AGIベンチマーク: 新しいスキルをその場で学習する能力をテストします。
• O3: ARC AGI ホールドアウトセットで 75.7%（低計算力設定）
• 高計算力設定では: 87.5%、人間レベルの性能を超える

これはAI能力の大きな進展を示しています。