Style Bert VITS2とは
リポジトリのreadmeに全部書いてある
さっそく自分をTTSにしてみよう
必要になるもの:
- 音源
- Python3.11
- NVIDIA GPU
録音
1ファイル5秒程度の長さの音源が複数必要になる
長い音源であってもあとで空白のところで自動分割することができる
自分の場合このITAコーパスの文章を1行ずつ空白を3秒程設けて読み上げたものをaudacityで録音した
ファイルはmp3やwavで書き出しておく
環境構築
ubuntu22.04LTSを基に話を進める
Python3.11のインストール
死んだ蛇のPPAを追加:
sudo add-apt-repository ppa:deadsnakes/ppa &&
sudo apt install python3.11 python3.11-dev python3.11-venv
Style Bert VITS2のインストール
リポジトリをクローン:
git clone https://github.com/litagin02/Style-Bert-VITS2.git &&
cd Style-Bert-VITS2
パッケージのインストール:
python3.11 -m venv venv &&
. venv/bin/activate &&
pip install -r requeriments.txt &&
python initialize.py
学習
録音したファイルをinputsフォルダに移しておく
その後学習用webuiを起動
venvをアクティベートした状態でコマンドを実行
python app.py
そしたらブラウザで http://localhost:7860/ にアクセス
上のタブからデータセット学習を選択
inputsフォルダにファイルがあることを確認し、モデル名に任意の文字を入力
そのあとスライスを実行し、wisperを使った文字起こしを実行する
完了を確認したら学習タブを選択する
モデル名に先程使用した名前を全く一緒のものを入力
自動前処理ボタンを押して学習開始したら後は待つだけ
完成したモデルで遊ぼう
音声合成タブを選んだら更新ボタンを押してプルダウンメニューからさっき自分の作成したモデルを選択
適当な文字を入力して音声合成ボタンを押す
そしたらなんと自分の声みたいなのが出力された
感想
専門的な知識なしでも音源を用意してマウスをポチポチしてたら合成音声が完成するという素晴らしい時代がやってきた
音声さえあれば作れるので悪意を持った偽情報の生成が簡単になってしまうが、そういったところは目をつむっておこう