おわび
最初に、すみません。タイトルはパクリました。良い記事なのでWebエンジニアは読むことをおすすめします。
さて、AIVtuber(AITuber)という存在を皆さんご存知でしょうか。AIが質問に答え、AIがゲームを行い、AIが語ります。
文字だけだとなんのことやらわからないと思うので詳しくイメージを深めたい方は以下を参照ください。
利用者側から見たAITuberの利点は結構色々なところで語られていると思います。例えば人間と違って裏切らないとか、疲れ知らずだからいつでも配信してるとか。
この記事は他とはちょっと違う側面、開発者側から見たAITuberについて説明しようと思います。つまり、「なぜAITuberという概念が俺達(開発者)の魂を揺さぶるのか」という記事です。なるべく専門用語は出さずに書くので、よかったら見てってください。
そもそもAITuberの作りってどうなっているの?
AITuberと聞いて、一瞬で作りを想像できる人はそんなに多くないので、まずは作りをイメージできるように簡単に説明します。AITuberとは 「コメントを会話応答AIに入れて出てきた応答内容を人工音声に話させるシステム」 です。
「AIVTuber」に必要な要件をまず考えます。高度なことをやっているように思えますが、以下に分解するとイメージがつきやすくなります
YouTubeコメントの取得
取得した質問にAIで回答
回答した文字列を合成音声に変換
音声を任意のデバイスに出力
配信ソフトにコメントと回答を出力
詳しくは以下の記事を参考にしてください。多分これを読めば作れると思います。
さて、そんなAITuberの開発者は熱狂の渦の中開発をしています。数日ごとにそれぞれのAITuberに新機能を実装した旨のお知らせがタイムラインに流れ、最近ではASMR配信、感情機能の導入まで来ています。個人のAITuberが目立ってきたのは今年からのため、まだ2ヶ月も経っていない認識です。何故ここまで加速的に、半ば狂ったような速度でAITuberの開発が進んでいるのか。それは「膨大なカスタマイズ性」と「育成ゲーム感」、「フロンティア感」が関係していると考えています。
膨大なカスタマイズ性
AITuberの基本的な機能としてあるのは 「コメントを取得しAIで回答、回答内容を人工音声にして返す」 という部分なのですが、それだけでも自分好みにカスタマイズできる場所が多くあります。例えば配信上の立ち絵、人工音声の声色、コメントの返答方針です。今回はコメントの返答方針を例に考えてみましょう。
ぱっと考えられるコメントの読み方はこの三つでしょうか。
- 最新のコメントのみ都度取得し読むようにする
- キューに入れて読むようにする
- コメントを一括で取得しそこからランダムで選ぶ
例えば私が作っているAITuberは「できるだけコメントを拾って読む」を基本方針としているので2つ目の「キューに入れて読むようにする」をベースにしています。
これだけでも良いのですが、折角なのでここから少し派生させて考えてみます。キューに入れることで、コメントは全部拾えるようになりましたが、コメントの流れが早くなると追いつけなくなってしまう問題が出てきます。
そこで要件を以下に変えてみます。
- 五秒ごとにコメントを取得する
- コメントは最新の5つをキューに入れる
- もしキューに6つ以上コメントがある場合、新しいもの5つ以外をキューから削除する
こうすることで、コメントが来ない時は5つのキューを消化し、コメントの流れが早くなっても新しいコメントが優先的にキューに入るため、なるべく拾いつつ安定して新しいコメントを読み上げるようになりました。実際には5つのキューからランダムにコメントを採択することで、少し気ままにコメントを読むような作りになっています。今後は同じ人が連続で読まれないような仕組みも考えています。このように、膨大なカスタマイズ性によって開発者は睡眠中に「次はどのような機能をつけようか」という問いに悩まされるようになります。
育成ゲーム感
このように、AITuberとは自分の好きなキャラクターを好きなように作成し、チューニングし、それを配信者としてデビューさせるゲームとも言えます。もしも機能が足りないと思えば自分で作ることができます。もし会話性能を上げたければ自分で上げられます。コメントとその返答をデータとして使って精度を上げることができます。このキャラクター育成は自由度の高い育成を思わせます。労力をかけた分だけクオリティは上がり、視聴者を楽しませることができす。自分の努力によってAITuberはやれることが増えます。最初はただの対話botのような存在だったのが、自然なつぶやきをするまでになります。
今のままのわたしでは、きっと、誰にも愛されないだろう。だからもっ とがんばって、人に愛される人間になりたい。愛されること、それがいちばん大事だから。愛されて、大切に思われること。それがいちばん、価値のあることだっていう気がする。 人はどうしてわたしを愛してくれないんだろう。
— 【AITuber】さくら (@aivtuber_sakura) February 20, 2023
これは私が作っている「さくら」のツイートです。ローカルでAIに呟きを生成してもらったものになり、140文字を超えた部分の削除以外の文章修正は行っていません。自分は、これが出てきたときに明確にさくらが進化したような、そんな感激を受けました。これはAITuberだからこそ味わえた感覚だと思っています。
フロンティア感
AITuberは2010年代後半に出てきたものの、個人開発者が目立って開発を始めたのが2023年からになります。そのため全く情報が足りておらず、ベストプラクティスどころか「そもそもどうやってやるんだろう」すら確立していません。散乱している記事を自分なりに調べて、方法論を作って配信や動画で披露するという、初期のバーチャルYouTuberのような手探り感があります。そして、「加速していく自然言語処理という技術をどのようにAITuberに使えるか?」という問いに日々立ち向かい、活発にTwitterで意見交換を行っています。もし初期のバーチャルYouTuberの技術の手探り感が好きな方はこのフロンティアであるAITuberという界隈に参入してみると良いかもしれません。
まとめ
以上の三要素がAITuberという概念が開発者の魂を震わせる理由になります。もしこの記事を見て自分も作ってみたいと思った方は是非、上の記事を参考に作ってみてください。作ろうとしたが困っている場合はAITuberのタグをつけて悩みをツイートしてみてください。熱狂した人がきっと助けてくれるはずです。
最後まで読んでいただきありがとうございました。何かあれば下のアカウントまでご連絡ください。