はじめに
ChatGPTなどの大規模言語モデル(LLM)の発展に伴い、直接的あるいは間接的にAIとコミュニケーション1する機会が増加していくことが予想されます。本記事では、AIとの「効果的なコミュニケーション2」の方式を見つけるため、シチュエーションとUIに着目し、長所と短所について検証3しました。今回は検証結果から最もおすすめの構成を紹介します。また、具体的な検証について次回記事に掲載しております。
おすすめ構成
本記事における、おすすめのAIとのコミュニケーション方式のデモとイメージ図です。この例では最初に「日本のファッションの歴史」という議題を与えたところ、画面右上のスライドが自動生成され、3Dモデルであるユニティちゃんが画面右下の発話内容を読み上げています。また、システム内の複数のエージェントが自動的に3Dモデルの発話にコメントをすることで、利用者のアイディエーションを促しています4。
デモ © Unity Technologies Japan/UCL
構成
- 台本:ChatGPTに、議題についての解説を提案させる
-
スライド:文や章単位で、画像生成AIを使用してイメージ画像を作成、
発表時は手動でページを遷移可能でページごとに対応した台本が読み上げられる - 3Dモデル:台本の読み上げと人間からの質問応答を合成音声で対応。スライド進行にあわせ3Dモデルが発話し、人間やコメント欄はそれに反応する流れ
- 発話内容表示部:3Dモデルが現在読み上げている内容、応答している内容を表示
- コメント欄:発話内容や人間の質問を入力に、異なる初期設定を与えられたエージェントが更新。コメント欄で質問がでると、コメント欄にその質問の回答がつく
おすすめ理由
上記の構成は、「議題」を与えるだけで台本とスライドが生成され、コメント欄を用いてアイディエーションすることができるため、1人の人間とAIとがコミュニケーションするシチュエーションにおける「効果的なコミュニケーション」を満たすと考えています。
より具体的には、以下2点を試行錯誤した結果できあがったものです。
- AIエージェントの数をいくつにするか
- 言語モデルだけを使用する場合と、3Dプラットフォームを活用した場合の違い
それぞれの試行結果や、このような構成に至るまでの考え方については、次回の記事でご紹介する予定です。
使用技術
- 言語モデル:ChatGPT API (gpt-3.5-turbo)[参考1]
- 音声認識:Whisper API[参考1]
- 3Dプラットフォーム:Unity Pro(エディターver:2021.3.0f1)[参考2]
- 3Dモデル:unity-chan(unitychan.unitypackage ver.1.1.1)[参考3]
- 合成音声:VoiceVox [参考4](VOICEVOX:春日部つむぎ[参考5])※本記事中に音声なし
- 口パク:uLipSync[参考6]
- 3D空間背景:Skybox AI(v0.3.0 alpha) [参考7]、Wispy Skybox [参考8]
- 画像生成:stable diffusion ver1-4[参考9]
参考
- Introducing ChatGPT and Whisper APIs https://openai.com/blog/introducing-chatgpt-and-whisper-apis
- Unity Pro https://unity.com/products/unity-pro
- unity-chan https://unity-chan.com/ © Unity Technologies Japan/UCL
- VOICEVOX https://voicevox.hiroshiba.jp/
- VOICEVOX 春日部つむぎ https://voicevox.hiroshiba.jp/product/kasukabe_tsumugi/
- uLipSync https://github.com/hecomi/uLipSync
- skybox AI https://skybox.blockadelabs.com/
- Wispy Skybox https://assetstore.unity.com/packages/2d/textures-materials/sky/wispy-skybox-21737
- Rombach, Robin et al. “High-Resolution Image Synthesis with Latent Diffusion Models.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 10674-10685. https://huggingface.co/CompVis/stable-diffusion-v1-4
-
本記事では 、「AIに議題を投げかけ、AIから知識や見識を得ること」を想定 ↩
-
本記事では 、「人間が気軽に、効率よく、有益な知識や見識が得られること」とする ↩
-
検証での評価は主観的な意見のため、あくまでご参考としていただければ幸いです ↩
-
発話内容とそれに対するコメント例は以下です。コメントの信憑性が高いとは限りませんが、アイディエーションツールとしては効果的な可能性があります。
発話内容:
平安時代(794-1185年)には、貴族文化が隆盛し、色鮮やかな十二単や縫い目の美しさを追求する「縫取り」が流行しました。
コメント:
・ QA:
Q. 和装において、平安時代の「縫取り」はどのような意味や美意識を表しているのでしょうか?
A. 平安時代の「縫取り」は模様の形成を通じて和服の美しさを追求する美意識を表し、植物や動物の形を織り込んで自然美や多様性を表現する意味もあります。
・ 用語説明:「縫取り」とは、平安時代に流行した縫い目の美しさを追求する貴族文化の一つ
・ アイデア喚起:「和装から学ぶ美意識」というテーマで、自分なりの和装コーディネートを考えてみよう ↩