4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

鳥羽商船高等専門学校Advent Calendar 2024

Day 7

Style Bert VITS2で自分の声をTTSにしてみた

Last updated at Posted at 2024-12-06

Style Bert VITS2とは

リポジトリのreadmeに全部書いてある

さっそく自分をTTSにしてみよう

必要になるもの:

  • 音源
  • Python3.11
  • NVIDIA GPU

録音

1ファイル5秒程度の長さの音源が複数必要になる
長い音源であってもあとで空白のところで自動分割することができる

自分の場合このITAコーパスの文章を1行ずつ空白を3秒程設けて読み上げたものをaudacityで録音した
ファイルはmp3やwavで書き出しておく

環境構築

ubuntu22.04LTSを基に話を進める

Python3.11のインストール

死んだ蛇のPPAを追加:

sudo add-apt-repository ppa:deadsnakes/ppa &&
sudo apt install python3.11 python3.11-dev python3.11-venv

Style Bert VITS2のインストール

リポジトリをクローン:

git clone https://github.com/litagin02/Style-Bert-VITS2.git &&
cd Style-Bert-VITS2

パッケージのインストール:

python3.11 -m venv venv &&
. venv/bin/activate &&
pip install -r requeriments.txt &&
python initialize.py

学習

録音したファイルをinputsフォルダに移しておく
その後学習用webuiを起動
venvをアクティベートした状態でコマンドを実行

python app.py

そしたらブラウザで http://localhost:7860/ にアクセス

image.png
上のタブからデータセット学習を選択
inputsフォルダにファイルがあることを確認し、モデル名に任意の文字を入力
そのあとスライスを実行し、wisperを使った文字起こしを実行する

image.png
完了を確認したら学習タブを選択する
モデル名に先程使用した名前を全く一緒のものを入力
自動前処理ボタンを押して学習開始したら後は待つだけ

完成したモデルで遊ぼう

image.png
音声合成タブを選んだら更新ボタンを押してプルダウンメニューからさっき自分の作成したモデルを選択
適当な文字を入力して音声合成ボタンを押す
そしたらなんと自分の声みたいなのが出力された

感想

専門的な知識なしでも音源を用意してマウスをポチポチしてたら合成音声が完成するという素晴らしい時代がやってきた
音声さえあれば作れるので悪意を持った偽情報の生成が簡単になってしまうが、そういったところは目をつむっておこう

4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?