OpenAI Realtime API新モデル3種：会話・翻訳・文字起こしの音声AIインフラが揃った

Posted at 2026-05-08

結論

OpenAIがRealtime APIに3つの音声モデルを同時リリース。会話（GPT-Realtime-2）、翻訳（GPT-Realtime-Translate）、文字起こし（GPT-Realtime-Whisper）の3つで、音声AIの基盤インフラが一気に整った。

特に注目すべきは翻訳モデル：70以上の言語入力、13言語出力、1分あたり$0.034（約5円）。人間の同時通訳者の約1/1000のコスト。

接続方式：WebRTC / WebSocket / SIP

従来の音声モデルの問題点：ツール呼び出し中に無音になる。ユーザーはシステムがフリーズしたと感じる。

GPT-Realtime-2の解決策：preamble（前置き）パターン。ツール実行中にモデルが自分の行動を説明しながら処理する。

ユーザー：「次のミーティングを確認して」
モデル：「カレンダーを確認しています...12分後にAlex Kimとのミーティングがあります」
（裏でカレンダーAPIを呼び出し中）

その他のスペック：

従来のカスケード方式：

音声入力 -> STT -> テキスト翻訳 -> TTS -> 音声出力
（各段階で感情・トーン・リズムが失われる）

GPT-Realtime-Translateのアプローチ：

音声入力 -> 単一モデル -> 音声出力
（話者の感情・トーン・リズムを保持）

テキストを介さずに生の音声を直接処理するため、従来のパイプラインが失う声の特徴を保持できる。

話しながらリアルタイムでテキスト出力。ライブ字幕、会議記録、ストリーミング配信に最適。