0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

OpenAIの音声エージェント gpt-realtime-2

0
Posted at

OpenAIのドキュメントを初めて読んでいる中で、音声エージェントというものを知りました。

音声エージェントとは、簡単に言うと、AIと音声で会話できるシステムのこと。

たとえば、ユーザーがマイクで話しかけると、AIがその内容を理解し、音声で返答してくれるような仕組み。

流れとしては、以下のようなイメージ。

  1. ユーザーが話す
  2. AIが音声を理解する
  3. AIが返答を考える
  4. AIが音声で返す

これまでは、AIとテキストでやり取りするものが多かったですが、音声で自然に会話できるシステムも作れると知り、とても興味を持ちました。

音声エージェントでできそうなこと

音声エージェントを使うと、単にAIと会話するだけでなく、いろいろな使い方ができそうだった。

たとえば、以下のような使い方が考えられる。

  • 音声でタスクを登録する
  • 音声で予定を確認する
  • 音声でメモを作成する
  • 音声でアプリを操作する
  • 音声で業務のサポートをしてもらう

このように考えると、音声エージェントは単なるチャットボットではなく、実際に作業を手伝ってくれるAIアシスタントに近いものだと感じた。

実際に使うにはコストも気になる

便利な一方で、実際に使おうとすると、APIのコストは結構高いという印象を持ちました。

image.png

個人で少し試す分にはよさそうだが、本格的にアプリとして使用する場合は、以下のような点を考える必要があると感じました。

  • 1回の会話でどれくらいAPIを使うのか
  • 有料プランにするのか

個人で試すなら小さく始めるのがよさそう

最初は、以下のような簡単なものから始めるとよさそうだな感じました。

  1. マイクで話す
  2. AIが内容を理解する
  3. 短い返答を音声で返す

その次に、アプリを作成する。
たとえば、以下のようなアプリ。

  • 音声でメモを保存する
  • 音声でToDoを追加する
  • 音声で予定を確認する
  • 音声で簡単な質問に答える

まとめ

OpenAIのドキュメントを読んで、音声エージェントという仕組みを初めて知りました。

AIと音声で自然に会話できるシステムはまだ見たことがないので、とても興味を持ちました。

一方で、実際に使うとなるとAPIコストは無視できないため、中々気軽に使えるものでもないなと思いました。

いつか音声エージェントも試してみたいと思いました。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?