AIで「ゆっくりダビデ先生」を作る【RVC v2】

Last updated at 2023-12-12Posted at 2023-12-11

はじめに

みなさんこんにちは！
ドワンゴのNekoNekkoと申します。
普段は N予備校で収録・編集・配信などを行っています。

今回の記事ではN予備校プログラミング講師折原ダビデ竜先生ご協力のもと、AIを使ったボイスチェンジャー
「ゆっくりダビデ先生」 を作成してみます。

╭━━━━━━━━━━━━━╮
　ゆっくりしていってね！！！
╰━━━━━━ｖ━━━━━━╯

AIボイスチェンジャーを知らない方のために簡単に説明すると、
特定のキャラの声になれる技術です。

ドワンゴでは SeirenVoice という製品にもなっております。

AIボイスチェンジャーには多くの種類がありますが、今回はRVC v2にダビデ先生の声を学習してもらい、どのくらいの精度が出るのか確認してみます。

※使い方については詳しく解説しませんのでご了承ください。

まずは学習元となるダビデ先生の声を収集していきます。
今回はダビデさんが30分間喋っている音声を用意しました。

学習用に用意した音声ではないため、そのままでは学習に適しません。
音声編集ソフトを使用し、簡単に整音していきましょう。
(無料で使える Audacity が便利です)

整音のポイントは以下の通りです。

整音が終わりましたら10秒ほどの短い音声ファイルに分割して準備完了です。

今回は100ファイル程に分割しました。

音声ファイルが用意出来たのでRVCを使用して学習していきましょう。
学習にはRTXシリーズなど比較的新しいGPUが必要ですが、お持ちでない方は無料でも使えるGoogle Colabでの学習も可能です。

引用
Colaboratory（略称: Colab）は、Google Research が提供するサービスです。 Colab では、誰でもブラウザ上で Python を記述、実行できるため、機械学習、データ分析、教育に特に適しています。

AIに学習させる上で大事なのが「一つの訓練データの学習回数を表す」 エポック数 です。

勉強に例えると
「同じ参考書の問題を何回覚えてから試験に臨みますか？」 というイメージです。
回数が少なければ当然試験で良い点数は取れません。
しかし同じ問題を多く覚えたところで、全く違う問題が出題されたら間違える可能性が出てきますよね？

よく言われる過学習がこれにあたります。

今回はダビデ先生の音声を 50回覚えてもらう様に設定しました。

学習出来たファイルを試してみましょう。
RVCには元々モデル推論という音声ファイルを変換する機能は行えるのですが、

＿人人人人人人人人人人人人人人人人人人人＿
＞　ゆっくりと言えばテキスト読み上げ！　＜
￣Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^^Y^￣

そこで今回は RVC Text-to-Speech WebUI を利用してみます。
これはGPUがなくても使える様です。
(CPUのみで動かしたことがないため、使えなかったらごめんなさい)

実際に読み上げた音声がこちらです。

いかがだったでしょうか。

今回紹介したRVCはAI界隈では決して新しい技術ではありません。
この様にAIを利用した技術は認知度の高いChatGPT以外にも日々進歩しています。

最近ではAIを利用したコンテンツの問題も多く出ていることから、これまで以上に情報リテラシーを持つことが大事になっていきます。

今回紹介したRVCでも許可なく他人の声を学習させることは行わない様にしましょう。

また、こういった最新技術を試すには Python や GitHub の知識も最低限は必要です。

N予備校のプログラミング入門コースでは授業やテキスト教材を通じてこれらの知識を学ぶことが出来ますので、これからもご活用いただけると嬉しく思います！

今回作成した「ゆっくりダビデ先生」の学習データを
プログラミング入門コースのSlack にて配布いたします。
ご興味のある方は使ってみて下さい。

╭━━━━━━━━━━━━━╮
　ルールを守って楽しく使おう
╰━━━━━━ｖ━━━━━━╯