結論
OpenAIがRealtime APIに3つの音声モデルを同時リリース。会話(GPT-Realtime-2)、翻訳(GPT-Realtime-Translate)、文字起こし(GPT-Realtime-Whisper)の3つで、音声AIの基盤インフラが一気に整った。
特に注目すべきは翻訳モデル:70以上の言語入力、13言語出力、1分あたり$0.034(約5円)。人間の同時通訳者の約1/1000のコスト。
3つのモデル概要
| モデル | 用途 | 特徴 | 価格 |
|---|---|---|---|
| GPT-Realtime-2 | 音声会話 | GPT-5レベル推論+ツール呼び出し | テキスト$4/$16/M、音声$32/$64/M |
| GPT-Realtime-Translate | リアルタイム翻訳 | 70+言語入力、感情保持 | $0.034/分 |
| GPT-Realtime-Whisper | ストリーミング文字起こし | 低遅延リアルタイム出力 | TBD |
接続方式:WebRTC / WebSocket / SIP
GPT-Realtime-2:ツールを使える音声エージェント
従来の音声モデルの問題点:ツール呼び出し中に無音になる。ユーザーはシステムがフリーズしたと感じる。
GPT-Realtime-2の解決策:preamble(前置き)パターン。ツール実行中にモデルが自分の行動を説明しながら処理する。
ユーザー:「次のミーティングを確認して」
モデル:「カレンダーを確認しています...12分後にAlex Kimとのミーティングがあります」
(裏でカレンダーAPIを呼び出し中)
その他のスペック:
- 128Kコンテキストウィンドウ(従来の4倍)
- 割り込み処理対応
- より自然な音声合成
GPT-Realtime-Translate:エンドツーエンド音声翻訳
従来のカスケード方式:
音声入力 -> STT -> テキスト翻訳 -> TTS -> 音声出力
(各段階で感情・トーン・リズムが失われる)
GPT-Realtime-Translateのアプローチ:
音声入力 -> 単一モデル -> 音声出力
(話者の感情・トーン・リズムを保持)
テキストを介さずに生の音声を直接処理するため、従来のパイプラインが失う声の特徴を保持できる。
現時点の制限
- ドキュメントでは「turn-based」と記載(自然な間を置くと最適)
- ハルシネーション発生あり(無意味な音声や沈黙)
- 真の同時通訳ではなく、逐次と同時の中間
コスト比較
- 人間の同時通訳者:1分あたり約3,500〜6,000円
- GPT-Realtime-Translate:1分あたり約5円
- コスト比:約1:1000
GPT-Realtime-Whisper:ストリーミング文字起こし
話しながらリアルタイムでテキスト出力。ライブ字幕、会議記録、ストリーミング配信に最適。