鳥羽商船高等専門学校Advent Calendar 2024

Style Bert VITS2で自分の声をTTSにしてみた

Last updated at 2024-12-09Posted at 2024-12-06

Style Bert VITS2とは

リポジトリのreadmeに全部書いてある

必要になるもの:

1ファイル5秒程度の長さの音源が複数必要になる
長い音源であってもあとで空白のところで自動分割することができる

自分の場合このITAコーパスの文章を1行ずつ空白を3秒程設けて読み上げたものをaudacityで録音した
ファイルはmp3やwavで書き出しておく

ubuntu22.04LTSを基に話を進める

死んだ蛇のPPAを追加:

sudo add-apt-repository ppa:deadsnakes/ppa &&
sudo apt install python3.11 python3.11-dev python3.11-venv

リポジトリをクローン:

git clone https://github.com/litagin02/Style-Bert-VITS2.git &&
cd Style-Bert-VITS2

パッケージのインストール:

python3.11 -m venv venv &&
. venv/bin/activate &&
pip install -r requeriments.txt &&
python initialize.py

録音したファイルをinputsフォルダに移しておく
その後学習用webuiを起動
venvをアクティベートした状態でコマンドを実行

python app.py

そしたらブラウザで http://localhost:7860/ にアクセス

上のタブからデータセット学習を選択
inputsフォルダにファイルがあることを確認し、モデル名に任意の文字を入力
そのあとスライスを実行し、wisperを使った文字起こしを実行する

完了を確認したら学習タブを選択する
モデル名に先程使用した名前を全く一緒のものを入力
自動前処理ボタンを押して学習開始したら後は待つだけ

音声合成タブを選んだら更新ボタンを押してプルダウンメニューからさっき自分の作成したモデルを選択
適当な文字を入力して音声合成ボタンを押す
そしたらなんと自分の声みたいなのが出力された

専門的な知識なしでも音源を用意してマウスをポチポチしてたら合成音声が完成するという素晴らしい時代がやってきた
音声さえあれば作れるので悪意を持った偽情報の生成が簡単になってしまうが、そういったところは目をつむっておこう