2023年9月25日、突如としてOpenAIの公式Xにより、ChatGPTがマルチモーダル機能が追加されると発表されました
これにより、ChatGPTのアプリでChatGPTとまるで人と会話をするようにやり取りできたり、画像ベースでの質問をすることができるようになります。
ChatGPTは見て、聞いて、話すことができるようになりました。今後2週間で、PlusユーザーはChatGPTと音声で会話できるようになり(iOS & Android)、会話に画像を含めることができるようになります(すべてのプラットフォーム)。
(日本語訳)
ChatGPTのマルチモーダル機能とは?
今回、追加される機能は大きく分けて2つあります
1つ目は、「音声による会話」機能で、こちらはChatGPTの公式アプリ(iOS・Android)に搭載されます。
これにより、ユーザーはテキスト入力だけでなく、音声での質問や指示をChatGPTに伝えることができるようになります。
例えば、運転中や家事をしながらでも、ChatGPTとの会話を楽しむことができるようになります。音声入力を使用することで、手を使わずに情報を得たり、疑問を解決したりすることが可能となり、さらにアクセス性と使いやすさが向上します。
2つ目は、「画像ベースの質問」機能で、これはすべてのプラットフォームで利用可能になります。
この機能により、ユーザーはChatGPTに画像を送信し、その画像に関する質問や説明を求めることができます。
例えば、ある物体や場所の写真を送信して「これは何ですか?」といった質問をすると、ChatGPTがそれに対して答えを提供することができます。また、複雑なグラフや図を送信して、それに関する説明や解釈を求めることも可能です。
日本でも使える?
「音声による会話」、「画像について質問」どちらの機能も日本でも利用が可能ですが、「画像についての質問」は画像から英語以外の文字を読み取る場合にはパフォーマンスが低下すると発表されています。
「音声による会話」は日本語での会話が可能です
↓実際に日本語で音声による会話をした様子は以下のページで公開しています!
いつから開始
ChatGPT Plus(有料版)に加入しているユーザーに、今後2週間以内(9/25~10月頭頃)にリリースしていくとのことです。
マルチモーダル機能を利用してできること
①グラフから情報を読み取る
例えば、グラフの画像をChatGPTに読み込ませて、そのグラフから読み取れることを質問することが可能です
これにより、グラフや図表の解釈が難しい場合や、特定のデータポイントに関する詳しい情報が欲しい場合に、ChatGPTにサポートを求めることができます
②試験問題の読み取り
試験問題の画像を読み取ることで、問題の内容や解答方法に関するヒントや説明をChatGPTから得ることができます。特に、学生や受験生が難しい問題に取り組む際、迅速にサポートを受けることが可能となります。
実際に使ってみた感想
今回は、先んじて「音声による会話」機能が利用開始になっていたので、こちらを試してみます。
まず、音声は男性2パターン、女性3パターンの合計5パターンから選ぶことができます
これらの声は、プロの声優と協力して作成されており、話した言葉は、Whisperという音声認識システムでテキストに変換されます。
音声機能の開始は、チャット画面の右上にあるヘッドホンアイコンから簡単にできます。
実際に会話をしてみたところ、まるで、実際の人と話しているくらい、驚くほど自然な音声で返答が返ってきました。
しかし、日本語の発音に関しては、海外の人が日本語を話すような感じがしました。聞き取りにくいというわけではありませんが、違和感を感じないと言ったら嘘になるという感じです
また、「音声による会話」機能は、他のアプリを開いたままのバックグラウンドでも利用可能でした。
これは非常に便利な機能で、例えばメール作成中にChatGPTに情報を尋ねることができたり、ChatGPTとの会話内容を参考にして、メモアプリでまとめることも可能です。
まだ、触ったばかりですが、ちょっと触るだけでもめっちゃ便利というのが伝わってきました。
ただ、Qiitaでは動画を貼れないので、実際の音声会話によるやり取り等は以下のページで確認してみてください!
また、ChatGPTでいち早く「音声会話機能」を使う方法も解説していますので、試してみたい人はぜひこちらを参考にしてみてください!






