OPENAIが新しいRealtime APIを公開しました
何気なくYouTube( 秘密兵器 )を見てたら、次のような情報が目に入ってきました。
リアルタイム処理に特化した専用モデルgpt-realtime
が公開されたようです。
早速どんなものか使ってみよう
早速使ってみることにしました。APIは開発者向けなのでAPIはプラットフォームからアクセスする必要があります。
OPENAIのAPIを試すにはAPIプラットフォームを開きます。
上のリンクを開いたら
右上のログインを押すとAPIプラットフォームがでてきますのでそこから入ります。
なんでこんな隠してあるんだろうね
すると下のようなAPIプラットフォームが開きます。
実際にAPIプラットフォームでいろいろと試すためには、課金や個人情報の設定が必要になりますが、今回は割愛。
ひとまず新しく追加されたgpt-realtimeがどんなものなのかを試してみたいと思います。
試してみる
右上のボタンでダッシュボードに切り替えたら、左のツールバーのCreateのAudioが選べるようになります。
選択すると上のような画面になって、Realtimeと選択されていることがわかります。
これが今回試したいAPIです。
この新機能がこの位置にあるということは
gpt-realtimeがオーディオにおけるメインプロダクトであることは間違いないです。
このまま、どんなエージェントのプロトタイプを作りたいかを入力してCreateを押します。
すると対話が出来ます。
こちらの音声が終わった時点ですぐ返答が来てる感じです。
下の音声グラフと帰ってくるタイミングを見比べてください。こちらの入力が確定する前に、もうレスポンスが帰ってきてます。凄い!
これは
👉 音声を入力した瞬間からモデル内部で直接解析し、同じモデルがそのまま音声を返してくる
から実現できることみたいです。
詳しいことは不明ですが、とにかくものすごいものが出来てる感はひしひしと伝わってきます。
恐ろしいほど応答が高速!
実際にどんなレベルなのかは試してみてもらったらわかると思いますが
いままで体験したリアルタイムの音声チャットのなかでは最も高速で自然のように思えます。
電話応対やちょっとした相談役なんでも作れそうですね
是非試してみてください!
現状設定可能な項目
まずは応答速度に注目
いままでのAPIと何が違うのだろうかと思うかも知れないですが、実際に試してみると
流れるような応答に本当に可能性を感じました。
どうも話してる途中にすでに解析してるっぽいです。今までとは別次元と感じました。
これはあらゆるサービスの音声窓口にできる気がします。
MCPとも連携可能なようなのでDB検索なんかも実装できるでしょう。
たとえば、
音声チャットで会話しながら、MCPで独自に用意したDBのレコードを解釈して結果を返すとか
そもそもこのAPI自体がかなり会話がスムーズに出来るので、そのままAIカウンセラーなどにもなるかも知れません。
今回はAPIの開放なので使い方は無限大です。
それではこれで記事を終わります。
詳細なAPIの仕様やどこがすごいのかについてはQiitaに
すでに素晴らしい記事を出している方がいらっしゃいますので是非そちらでご確認ください。