More than 1 year has passed since last update.

OpenAI Realtime APIってどのくらい速いの？

Posted at 2024-10-19

どのくらい早いのかあまりまとまっていなかったので、調べた。

サマリ

必要なモジュール
- VAD (ターン検出用途): SileroVAD
- ASR: whisper (whisper-large-v3-turbo 等)
- LLM: gemma-2-2b-jpn-it 等
- TTS: edge-tts, Style-Bert-VITS2等
- 完全にRealtime APIと同様のインターフェイスにする場合はwebsocket対応を別途行う必要がある
処理時間の目安
- VAD: 200ms
- ASR: 500 ms (リアルタイム処理を行ったときの処理遅延)
- LLM: 500ms (発話可能な1文の出力まで)
- TTS: 200 - 500ms
結論
- 相槌等の即時生成機構を考慮しない場合、現状ローカルマシンで日本語の音声対話だと 1400 ms 程度は可能
参考実装
- https://github.com/ggerganov/whisper.cpp/tree/master/examples/talk-llama
  - llama.cpp と whisper.cpp と軽量 tts (edge-tts ライブラリのようなもの, MacのsayコマンドとWinのSpeechSynthesizerに対応) で構築されている

上記でも触れたように、人間の会話反応はとても速い。
まず発話の重複が多く、相槌等でのリズム的な応答もある。
速度に関して、リアルな人間に近づけるために重要なのは以下の二点である。

会話の予測に関しては比較的改善しやすい。発話途中文から複数の会話完了文候補とそれに対する返答をあらかじめ生成し、かつ音声合成し、実際の発話と会話完了文候補との類似度を取ればよい。

上記に関しては以下の論文で詳しく検討されている。

京大の井上さんのRealtime Voice Activity Projection (Realtime-VAP)が非常によいので特に言うことはありません (利用される場合はライセンスをよく読みましょう)