↓このポストで書いている『OpenAI 公式の「Realtime API Agents Demo」のお試し』に関するメモ的な記事です。
試した流れ
試したものは、公式が公開している下記です。
●openai/openai-realtime-agents: This is a simple demonstration of more advanced, agentic patterns built on top of the Realtime API.
https://github.com/openai/openai-realtime-agents
セットアップ
セットアップ手順は、以下に書かれたものをそのままという感じです。
以下に、自分の環境(Mac)で入力していったコマンドを掲載します。
git clone https://github.com/openai/openai-realtime-agents.git
cd openai-realtime-agents
npm i
export OPENAI_API_KEY=【自分のOpenAIのAPIキー】
npm run dev
※ 環境変数で APIキーを設定する部分は、今回は一時的に変数の設定をする形にしています
サンプルへのアクセス
上記の流れでセットアップをした結果、以下の画像の下部に出力されているように 3000番ポートでローカルサーバーが立ち上がりました。
(ローカルネットワークの別デバイスからクライアントが接続する構成も想定されているっぽく、ローカルIPアドレスも表示されていました)
この後、上記を実行しているのと同じ PC内のブラウザから http://localhost:3000
にアクセスしました
最初のお試し
最初は、左下の部分にテキスト入力をして試しました。
日本語を入力してみて問題なくやりとりができたので、以後のやりとりもこちらは日本語を用いました。
Push to talk で試す
最初のお試しの際は「Push to talk」がデフォルトで無効になっていたと思うのですが、下にある「Push to talk の設定用のチェックボックス」をオンにして、Push to talk を有効化しました。
それで音声によるやりとりを試した結果が冒頭にも掲載していたものです。
右上のあたりやログの表示などを見てみると、開始時は「Agent: greeter」で始まっていたのが、こちらが最初の質問に回答した後に「Agent: haiku」に切り替わったりしている等の挙動も確認できました。
(画面内でも「function call: transferAgents」という表示が出ていたりしました)
API利用料のメモ
動画に撮った内容と、その前後で試したものが含まれたものになると思われますが、API利用に関する料金の情報をメモしてみます。
以下のページから確認できるものです。
●Usage: Cost - OpenAI API
https://platform.openai.com/settings/organization/usage
以下の 2つの画像が、それぞれ総額と内訳になるかと思います。
テキストで書き出すと、こんな感じです。
【総額】
Spend by Project: $0.37【内訳】
realtime api | gpt-4o-realtime-preview-2024-12-17 audio, input
$0.10
realtime api | gpt-4o-realtime-preview-2024-12-17 audio, output
$0.22
realtime api | gpt-4o-realtime-preview-2024-12-17 text, input
$0.01
realtime api | gpt-4o-realtime-preview-2024-12-17 text, cached input
$0.01
realtime api | gpt-4o-realtime-preview-2024-12-17 text, output
$0.02
Pricing のページ
上記の計算のもとになる、公式のページの該当箇所のメモです。
●Pricing | OpenAI
https://openai.com/api/pricing/
mini の利用料
今回、デフォルトのままで使うと「gpt-4o-realtime-preview-2024-12-17」が利用されたようですが、費用的に大きく差がある以下の「gpt-4o-mini-realtime-preview-2024-12-17」を使った時に対話内容がどうなるかは、気になったところでした。