0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

OpenAI Realtime API新モデル3種:会話・翻訳・文字起こしの音声AIインフラが揃った

0
Posted at

結論

OpenAIがRealtime APIに3つの音声モデルを同時リリース。会話(GPT-Realtime-2)、翻訳(GPT-Realtime-Translate)、文字起こし(GPT-Realtime-Whisper)の3つで、音声AIの基盤インフラが一気に整った。

特に注目すべきは翻訳モデル:70以上の言語入力、13言語出力、1分あたり$0.034(約5円)。人間の同時通訳者の約1/1000のコスト。

3つのモデル概要

モデル 用途 特徴 価格
GPT-Realtime-2 音声会話 GPT-5レベル推論+ツール呼び出し テキスト$4/$16/M、音声$32/$64/M
GPT-Realtime-Translate リアルタイム翻訳 70+言語入力、感情保持 $0.034/分
GPT-Realtime-Whisper ストリーミング文字起こし 低遅延リアルタイム出力 TBD

接続方式:WebRTC / WebSocket / SIP

GPT-Realtime-2:ツールを使える音声エージェント

従来の音声モデルの問題点:ツール呼び出し中に無音になる。ユーザーはシステムがフリーズしたと感じる。

GPT-Realtime-2の解決策:preamble(前置き)パターン。ツール実行中にモデルが自分の行動を説明しながら処理する。

ユーザー:「次のミーティングを確認して」
モデル:「カレンダーを確認しています...12分後にAlex Kimとのミーティングがあります」
(裏でカレンダーAPIを呼び出し中)

その他のスペック:

  • 128Kコンテキストウィンドウ(従来の4倍)
  • 割り込み処理対応
  • より自然な音声合成

GPT-Realtime-Translate:エンドツーエンド音声翻訳

従来のカスケード方式:

音声入力 -> STT -> テキスト翻訳 -> TTS -> 音声出力
(各段階で感情・トーン・リズムが失われる)

GPT-Realtime-Translateのアプローチ:

音声入力 -> 単一モデル -> 音声出力
(話者の感情・トーン・リズムを保持)

テキストを介さずに生の音声を直接処理するため、従来のパイプラインが失う声の特徴を保持できる。

現時点の制限

  • ドキュメントでは「turn-based」と記載(自然な間を置くと最適)
  • ハルシネーション発生あり(無意味な音声や沈黙)
  • 真の同時通訳ではなく、逐次と同時の中間

コスト比較

  • 人間の同時通訳者:1分あたり約3,500〜6,000円
  • GPT-Realtime-Translate:1分あたり約5円
  • コスト比:約1:1000

GPT-Realtime-Whisper:ストリーミング文字起こし

話しながらリアルタイムでテキスト出力。ライブ字幕、会議記録、ストリーミング配信に最適。

開発者向けリンク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?