More than 1 year has passed since last update.

gpt-4oの音声対話機能について

Last updated at 2024-05-31Posted at 2024-05-31

まだ展開されていない機能なのに・・・

２週間ほど前、gpt-4oを使用した感情のこもった会話やビジョン機能が発表されて以来、所々で既にこれらのモデルを使ってそのような機能が使用できると考えている人がちらほら見受けられます。

本来、信頼できる記事を提供することが求められているような日経クロステックの記事でさえChatGPTで既にこのような機能にアクセスしているという内容の記事を投稿している方もいました。

ですがこのモデル自体に備わった、声のトーンを変えたり、相手の感情を反映したような応答をする機能はレッドチーム（技術の危険性に関して検証する一部の専門家グループ）の間でリスクに関して検証を受けている段階で、一般のユーザーには公開されていません。

これ関しては、優先的にサービスを利用できるような特別な人がいるわけではありません。

むろんOpenAIというアメリカの企業が開発している技術である事など、諸事情を考慮すればアメリカの企業であれば既に利用している所もあるのではと考えるのは無理のない話しですが、現在OpenAIの内部での検証の域を出ません。

また仮にレッドチームの一員としてリスクを検証しているとしても、NDAなどを結んだ上で家族や友人にもその検証の結果について口外しないための契約が必要になっている状態です。

そのためgpt-4o特有のマルチモーダルな機能に既にアクセスしているという認識は正しくありません。

一応ビジョン機能（VQA）はgpt-4oを使ったものになっていますが、アナウンス時に印象深かったような感情のこもった会話をする（音声をテキストに書き下さず、直接音声として認識し音声を返す機能）機能などはまだ利用できません。

実際にこれらのサービスが展開されるさいは過去のサービスの展開と同じくアカウントごとに、ランダムに展開されていくことになるはずです。

その過程では、同じ職場の同僚はアクセス出来るのに私はまだ利用できないという不公平な雰囲気が生じるかも知れません。

今回も同じ経緯を辿るとは思いますが、gpt-4oの音声による感情のこもった会話機能については、5月末時点でまだ広く一般に公開されてはいません（応答速度が多少は早くなったかも知れませんが・・・）

利用できるようになる前と後ではChatGPTを使った利用体験が変わることは容易に想像できますが、まだ誰も利用していない状態であるということは覚えておく必要がありそうです。