OpenAI 公式の「Realtime API Agents Demo」の試してみた時のメモ

Last updated at 2025-01-20Posted at 2025-01-19

↓このポストで書いている『OpenAI 公式の「Realtime API Agents Demo」のお試し』に関するメモ的な記事です。

試した流れ

試したものは、公式が公開している下記です。

●openai/openai-realtime-agents: This is a simple demonstration of more advanced, agentic patterns built on top of the Realtime API.
　https://github.com/openai/openai-realtime-agents

セットアップ

セットアップ手順は、以下に書かれたものをそのままという感じです。

以下に、自分の環境（Mac）で入力していったコマンドを掲載します。

リポジトリのクローン

git clone https://github.com/openai/openai-realtime-agents.git

パッケージのインストール

cd openai-realtime-agents
npm i

APIキーの設定と処理の実行

export OPENAI_API_KEY=【自分のOpenAIのAPIキー】
npm run dev

※ 環境変数で APIキーを設定する部分は、今回は一時的に変数の設定をする形にしています

サンプルへのアクセス

上記の流れでセットアップをした結果、以下の画像の下部に出力されているように 3000番ポートでローカルサーバーが立ち上がりました。
（ローカルネットワークの別デバイスからクライアントが接続する構成も想定されているっぽく、ローカルIPアドレスも表示されていました）

この後、上記を実行しているのと同じ PC内のブラウザから http://localhost:3000 にアクセスしました

最初のお試し

最初は、左下の部分にテキスト入力をして試しました。

日本語を入力してみて問題なくやりとりができたので、以後のやりとりもこちらは日本語を用いました。

Push to talk で試す

最初のお試しの際は「Push to talk」がデフォルトで無効になっていたと思うのですが、下にある「Push to talk の設定用のチェックボックス」をオンにして、Push to talk を有効化しました。

それで音声によるやりとりを試した結果が冒頭にも掲載していたものです。

右上のあたりやログの表示などを見てみると、開始時は「Agent: greeter」で始まっていたのが、こちらが最初の質問に回答した後に「Agent: haiku」に切り替わったりしている等の挙動も確認できました。
（画面内でも「function call: transferAgents」という表示が出ていたりしました）

API利用料のメモ

動画に撮った内容と、その前後で試したものが含まれたものになると思われますが、API利用に関する料金の情報をメモしてみます。

以下のページから確認できるものです。

●Usage: Cost - OpenAI API
　https://platform.openai.com/settings/organization/usage

以下の 2つの画像が、それぞれ総額と内訳になるかと思います。

テキストで書き出すと、こんな感じです。

【総額】
Spend by Project： $0.37

【内訳】
realtime api | gpt-4o-realtime-preview-2024-12-17 audio, input
$0.10
realtime api | gpt-4o-realtime-preview-2024-12-17 audio, output
$0.22
realtime api | gpt-4o-realtime-preview-2024-12-17 text, input
$0.01
realtime api | gpt-4o-realtime-preview-2024-12-17 text, cached input
$0.01
realtime api | gpt-4o-realtime-preview-2024-12-17 text, output
$0.02

Pricing のページ

上記の計算のもとになる、公式のページの該当箇所のメモです。

●Pricing | OpenAI
　https://openai.com/api/pricing/

mini の利用料

今回、デフォルトのままで使うと「gpt-4o-realtime-preview-2024-12-17」が利用されたようですが、費用的に大きく差がある以下の「gpt-4o-mini-realtime-preview-2024-12-17」を使った時に対話内容がどうなるかは、気になったところでした。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up