会話AIを2人分作成し、お互いに会話をさせてみました。また雑談としての面白さの検証と記録を兼ねて、その様子をYoutubeで生配信することにも挑戦してみました。以下のチャンネルで実験を行っています。
今回はその経緯で得られた知見や結果を報告していきます。
事前の準備
人工知能の構成
まず大切なのは会話の作り方です。Chat-GPTをはじめとする最新の言語モデルなら会話文ごと生成することが可能です。これを分割して2人が話しているかのように表示、または音声を再生すれば対話を作り出すこともできます。
しかしこれは本質的には一人二役であり、実際に応答しているわけではありません。そこで今回はなるべく独立した2つのAIを用意して人間のそれに近い環境を再現しました。
個性付け
2つのAIにはそれぞれ個性ともいうべきキャラクター性を加えています。これは会話に彩りを加えること、そしてどちらの発言か分かりやすくするという狙いがあります。
ちなみに画像等もAIによる自動生成を試してみました。Live2Dはまだ完成していないですが、静止画だと寂しいので瞬きとちょっとした動きをさせるようにしています。AIVtuberという肩書きのチャンネル名からも分かるように、アバターを使った配信形式であるVtuberを参考にしています。
文章生成、音声など
文章の生成には自作した会話AIアプリ『Eveki』をJavaScriptから使う形をとっています。音声合成にはVOICEVOXを利用しました。これらによって生成された文章を読み上げてくれるようになります。
実際の会話内容
私が実際に行ったライブ配信は以下のようになりました。なかなか長いのでとりあえず下の文章だけ読んでいただければ大丈夫です。
口調の伝染
右のハンナは関西弁で、左のレイテは「〜ですわ」といったお嬢様言葉で話すように設定していました。しかし実際に会話させてみると、お互いひとりで話すときよりこの口調の反映のされ方が弱くなるような印象を受けました。また片方の話し方に影響されることもあり、両方とも関西弁になることもあります。
この結果は興味深いものです。単独のAIが出力した会話文ならこのような口調の混同は避けられたかもしれません。それらの学習元である文章、小説や戯曲であればひとりひとりの話し方の特徴は明確に定義され、変更されることはありません。
しかし現実の会話では話し方、口癖の伝染は頻繁に起こるものです。こちらにより近づいたと考えれば個性の揺らぎはむしろ良い結果なのかもしれません。
会話を終わらせようとする
実験段階から数分ほどのやり取りで会話も終わらせようとする動きが見られました。どこかに外出する、もう寝る、といった具合に話を切り上げようとしてしまいます。
よく考えてみるとこれは当然のことです。学習元である文章の中の会話は数分、長くて数十分くらいの会話を描写したものであるはずです。「カラマーゾフの兄弟」のように長い対話を元にした小説も存在しますが特殊な例にすぎません。
さらに人間自体も数時間ずっと内容のある会話ができるとは限りません。配信やラジオがお便りや投稿を元に話題を作っていることを考えると、AIが話を切り上げてしまうのも仕方ないことかもしれません。
まとめ
考察と改善
独立2つのAIを用いることで実際の会話に近い、適度に個性を反映させた応答が可能になりました。一方で話題を見つけ会話を長続きさせるには人間と同じような創意工夫が必要だと言えます。この点に関しては適度にコメントを拾うことで改善ができると考えています。ただコメントの取得にはAPIの制限があるため頻度は調整する必要があります。
今後について
GPT-3などではなく自作の人工知能を使っているため比較的安価に何度も配信を試すことができます。これを利用して精度や配信としての魅力を高めていこうと考えています。もし興味があればチャンネル登録などしていただけると嬉しいです。
レイテ自体は公式LINEを通してメッセージのやり取りをすることができます。また会話AIアプリ『Eveki』はiOSにてリリースしています。こちらもよければぜひ試してみてください。