概要
Style-Bert-VITS2をWindows11でインストールしたときのメモ
音声の学習とTTS(Text-to-Speech)が可能で日本語のTTSが自然と言われているモデル。
https://github.com/litagin02/Style-Bert-VITS2
この記事の対象者
Style-Bert-VITS2の推奨ハードウェア要件を満たしており、
かつ、以下の用語を理解できる人
git, pip, venv, winget
Style-Bert-VITS2の推奨ハードウェア要件
Pythonのバージョン: Python 3.8 ~ 3.11
3.12の場合はエラーが出る。
使用ディスク量: 約11.16GBの空き容量が必要です。
RAMの使用量: 最低1.8GBのRAMが必要ですが、より快適に動作させるためにはそれ以上の容量を推奨します。
GPU: NVIDIA GPUが推奨されており、特にCUDA対応のものであれば性能が向上します。具体的には、RTX 3000シリーズ以上が望ましいとされています。
学習データ: 学習に必要な音声データやモデルファイルを保存するための十分なストレージが必要です。特に音声合成モデルを使用する場合、大量のデータを扱うため、ストレージ容量は重要です。
これらの要件は、Style-Bert-VITS2を効果的に運用するために必要な基本的なハードウェアスペックです。特にGPUの性能は音声合成処理に大きく影響するため、可能であれば高性能なGPUを使用することが推奨されます
下準備
任意の階層にffmpegをインストール
winget install ffmpeg
パスを通す
・「スタート」メニューから「設定」を開きます。
・「システム」>「詳細情報」>「システムの詳細設定」をクリックします。
・「環境変数」をクリックします。
・「システム環境変数」の「Path」を選択し、「編集」をクリックします。
・「新規」をクリックし、FFmpeg の実行ファイル (ffmpeg.exe) が含まれているディレクトリのパスを入力します。
・「OK」をクリックしてすべてのウィンドウを閉じます。
1.gitをクローン
パスに日本語や空白が含まれない場所にダウンロードして展開します。
git clone https://github.com/litagin02/Style-Bert-VITS2.git
2.仮想環境を作成し、アクティベーション
cd Style-Bert-VITS2
python -m venv venv
.\venv\Scripts\Activate.ps1
3.依存関係をインストール
pip install -r requirements.txt
4.初期化
python initialize.py
5.起動
Style-Bert-VITS2ディレクトリ配下にある
Editor.batというファイルをダブルクリック
または以下コマンドでTTS用のWebUIを起動できます。
python server_editor.py --inbrowser
Style-Bert-VITS2ディレクトリ配下にある
App.batというファイルをダブルクリック、
または以下コマンドで学習用のWebUIを起動できます。
python app.py
ロード => テキスト入力欄に読ませたいテキストを入力 => 音声合成 で音声を読ませることができます。
モデル一覧から好きなモデルを選ぶこともできます。いろんな声を試してみてね!