「12 Days of OpenAI」Day 9 は、APIを使う開発者やスタートアップ向けの機能が大幅に拡充されました。
o1 モデルの本格API対応や WebRTC対応のRealtime API、さらに新しいPreference Fine-Tuningなど、さまざまなアップデートが紹介されています。
この記事はChatGPT Advent Calendar 2024の1日目です(空いていたので書いてみました)今年は「12 Days of OpenAI」ということで毎日発表がありましたが、その内容を復習しながらまとめます。
本日の発表ハイライト
-
o1をAPIで正式リリース
- 従来の「o1 preview」を大幅に強化。
- Function calling や 構造化出力(Structured Outputs)、Developer Messages(改良されたシステムメッセージ)など主要機能が利用可能に。
- Vision入力にも対応し、画像を使ったタスク(製造業・科学分野など)に役立つ。
- 「Reasoning Effort」パラメータで思考負荷を調整し、簡単なタスクは軽量に、難しいタスクはじっくり推論。
-
Realtime APIがWebRTCに対応 & 価格引き下げ
- これまでのWebSocket方式に加え、WebRTC で音声ストリーミングをより簡単かつ低遅延に。
- microcontroller や スマートトイ への組み込みも容易にし、数十行のコードで実装可能。
- 料金改定で GPT-4.0オーディオトークンが60%オフ、さらに4 miniなら10倍安いトークン単価を実現。
-
Preference Fine-Tuningの追加
- 既存の Supervised Fine-Tuning(模範回答を学習)や Reinforcement Fine-Tuning(強化学習)に加え、Preference Fine-Tuning(2つの回答のどちらを好むかを学習)が新登場。
- 「応答の簡潔さ」「独自の文体」など、より抽象的な好みをモデルに反映しやすい。
- GPT-4.0から利用開始、トレーニングコストはSFTと同額。
-
Go / Java SDKの正式提供
- 既存の Python / Node.js SDK に加え、Go や Java でも OpenAI API を手軽に扱える公式ライブラリを公開。
-
ログイン & APIキー取得フローが簡単に
- 新たなUIで数ステップの手続きだけで APIキーを取得可能。
-
Devs向けイベント動画も公開
- 過去数カ月の “OpenAI Dev Days” 世界ツアーで収録された発表を YouTube で視聴可能。
今後の展望
-
o1 Pro モード(API版)は現在開発中
発表では「エルフ(elves)が徹夜作業中」との表現も。近いうちに公開される見込み。 -
AMA(Ask Me Anything)開催
発表後1時間、OpenAIのフォーラムにて開発チームへの質問を募集。
「Preference Fine-Tuning」や「Vision対応のo1」など、高度なカスタマイズが可能になる機能がまとめて投入された印象です。
加えて、リアルタイム音声APIのハードルが一気に下がったことで、“音声×IoT” のアプリケーションがさらに増えそう。
これらアップデートを活用しつつ、エキサイティングなAIサービスを作るチャンスがますます広がりますね。
こちら公開後、続々とWebRTCを使った開発を行っている方も𝕏上で急増しています。会話型のシステムだとリアルタイム性が求めることになるので、WebRTCは本当に嬉しいですね。
開発者向けの本日のアップデートでまた様々な可能性が見えてきてワクワクしますね
参考動画: Dev Day Holiday Edition—12 Days of OpenAI: Day 9 - YouTube