こんにちは!Matimです!!
今回の趣旨は完全に個人趣味となってしまいますが、AIとの会話と実現させるためにいろいろ模索していく内容をまとめていこうと思います!
はじめに
皆さんAIと会話していますか?
ChatGPTの会話機能やEllevenlubの会話、その他ソフトやアプリで会話等、今は様々なところでAIとの会話ができる時代です。
ですが、会話しているときに思ったことはありませんか?
「声質が機械的過ぎてAIとの会話って感じ…」と!
私も頻繁に感じています…
ですので!リアルに話せるAIを作ってその履歴なんかを記事に残していこうと思います!
作るもの
elevenlabsというツールを使って、リアルな音声の制作を行っていきます
このソフトでは、文章を作って読ませることしかできないため、
会話ができるように文章を作り上げるためにAmazon Bedrockを使って文章の生成を行います。
このようにして、相手の会話に合わせた返答が可能なリアルなAIを作り上げていきたいと思っています。
課題
会話を行いたいのですが、
相手の音声をストリーミングで受け取って内容を分析し返答用文章の生成、文章の読み上げ
となりますが、音声をリアルタイムで受け取って次に繋げるという箇所が今のところ解決策の思い浮かんでいない箇所ですね…
現状
今は会話のために、通話アプリを使ってPCとの双方向通信の箇所を解決しました。
アプリ→ミキサー→PC(Elevenlab)→ミキサー→アプリ
という流れで会話自体は可能になった状態です。
次回改善点
今回の会話シミュレーションでは、デフォルト音声のままの出力になってしまっているので、AIっぽい音声との会話をしていました。
次回には自分の音声を学習させて、日本語に適用したリアルな音声がスマホから聞こえるようにしたいと思います。
さいごに
こんな感じで短めの記事を複数投稿して経過をお知らせしていこうと思います。
趣旨が変わったり使用リソースが変わったりするかもしれませんが見続けていただけると幸いです!
それでは!よきAIライフを!