ゴール
AI音声実況を作ること
今回の実況プロセス
実況音声を前撮り→AIボイスチェンジャー
※リアルタイム変換や歌の変換は面白いけど対象外
技術選定
・ゴールが実現できればなんでもいい!
・自分の声にマッチする
自分の声について
・低い(バリトンくらいはある)
・滑舌に問題はない
①Parakeet voice changer
・アルファ版でUIが安定しない
・割と早期に有料化しそう
・使ってみたけどそもそも出力結果が安定しない
・総じて学習コストの高さを感じる
②NEUTRINO Diffusion
・調査段階で実況に使っている事例が少ない印象
・公式ページを見ても使用感をイメージできない
・調査段階で早々に断念
③RVC WEBUI(これに決定)
・オープンソース
・リアルタイムボイスチェンジに焦点
・録音もいける
・学習データが作れる
・事例も豊富
④Style-Bert-VITS-2
・AIゆっくり実況
・ボイスチェンジではない
・実況生成AI
・実況生成なのに抑揚があって面白いが、今回のゴールとは異なる
・使用感…自分で一切発声したくない人には最高
RVCの参考記事①
https://pcniki.com/retrieval-based-voice-conversion-webui/
・インストール
・モデルの作成
・声とBGMの分離
・ボイスチェンジ
の方法が書かれている。
歌を歌わせることはできるが、アカペラが出力される。
アカペラと伴奏の合成、モデルマージ(推論の精度を上げる)、実況のボイスチェンジについてはほぼ書かれていない。
RVCの参考記事②
https://note.com/05180219/n/n78c84c232414
・①よりも新しくて網羅的
・モデルマージの方法も書かれている
参考にしたうえで苦労する点
・素材が見つからない→BGMと声が分離され、対象のみが切り抜かれた動画/音声なんて見つかるはずがない→自分で素材を集め、編集して切り抜き動画/音声を作るくらいは必要である
・ファイルを追加した後、適切に動作しないことがある→アプリをスーパーリロードないし再起動する
・とにかく時間がかかる→素材集めはこだわれば終わりがなく最も大変な作業である。とりあえず1分ぶんのセリフを用意できれば始めて良いと思う
・学習結果の質や声質や声音によってはボイスチェンジが機能しないこともある。機能しなかった際の問題の切り分けが難しい