はじめに
みなさんこんにちは!
ドワンゴのNekoNekkoと申します。
普段は N予備校 で収録・編集・配信などを行っています。
今回の記事ではN予備校プログラミング講師 折原ダビデ竜先生ご協力のもと、AIを使ったボイスチェンジャー
「ゆっくりダビデ先生」 を作成してみます。
╭━━━━━━━━━━━━━╮
ゆっくりしていってね!!!
╰━━━━━━v━━━━━━╯
AIボイスチェンジャーって何?
AIボイスチェンジャーを知らない方のために簡単に説明すると、
特定のキャラの声になれる技術です。
ドワンゴでは SeirenVoice という製品にもなっております。
AIボイスチェンジャーには多くの種類がありますが、今回はRVC v2にダビデ先生の声を学習してもらい、どのくらいの精度が出るのか確認してみます。
※使い方については詳しく解説しませんのでご了承ください。
ダビデ先生の声を収集
まずは学習元となるダビデ先生の声を収集していきます。
今回はダビデさんが30分間喋っている音声を用意しました。
学習用に用意した音声ではないため、そのままでは学習に適しません。
音声編集ソフトを使用し、簡単に整音していきましょう。
(無料で使える Audacity が便利です)
整音のポイントは以下の通りです。
- 環境音やリップノイズを減らす
- 無音になっている箇所はカットする
- ファイルが複数の場合はサンプリングレートを統一する
整音が終わりましたら10秒ほどの短い音声ファイルに分割して準備完了です。
今回は100ファイル程に分割しました。
ダビデ先生の声を学習
音声ファイルが用意出来たのでRVCを使用して学習していきましょう。
学習にはRTXシリーズなど比較的新しいGPUが必要ですが、お持ちでない方は無料でも使えるGoogle Colabでの学習も可能です。
引用
Colaboratory(略称: Colab)は、Google Research が提供するサービスです。 Colab では、誰でもブラウザ上で Python を記述、実行できるため、機械学習、データ分析、教育に特に適しています。
AIに学習させる上で大事なのが「一つの訓練データの学習回数を表す」 エポック数 です。
勉強に例えると
「同じ参考書の問題を何回覚えてから試験に臨みますか?」 というイメージです。
回数が少なければ当然試験で良い点数は取れません。
しかし同じ問題を多く覚えたところで、全く違う問題が出題されたら間違える可能性が出てきますよね?
よく言われる 過学習 がこれにあたります。
今回はダビデ先生の音声を 50回 覚えてもらう様に設定しました。
テキスト合成を試してみる
学習出来たファイルを試してみましょう。
RVCには元々モデル推論という音声ファイルを変換する機能は行えるのですが、
_人人人人人人人人人人人人人人人人人人人_
> ゆっくりと言えばテキスト読み上げ! <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^^Y^ ̄
そこで今回は RVC Text-to-Speech WebUI を利用してみます。
これはGPUがなくても使える様です。
(CPUのみで動かしたことがないため、使えなかったらごめんなさい)
実際に読み上げた音声がこちらです。
まとめ
いかがだったでしょうか。
今回紹介したRVCはAI界隈では決して新しい技術ではありません。
この様にAIを利用した技術は認知度の高いChatGPT以外にも日々進歩しています。
最近ではAIを利用したコンテンツの問題も多く出ていることから、これまで以上に情報リテラシーを持つことが大事になっていきます。
今回紹介したRVCでも許可なく他人の声を学習させることは行わない様にしましょう。
また、こういった最新技術を試すには Python や GitHub の知識も最低限は必要です。
N予備校のプログラミング入門コース では授業やテキスト教材を通じてこれらの知識を学ぶことが出来ますので、これからもご活用いただけると嬉しく思います!
おまけ
今回作成した「ゆっくりダビデ先生」の学習データを
プログラミング入門コースのSlack にて配布いたします。
ご興味のある方は使ってみて下さい。