Style-Bert-VITS2をローカルで動かす

Last updated at 2024-12-09Posted at 2024-12-02

概要

Style-Bert-VITS2をWindows11でインストールしたときのメモ
音声の学習とTTS（Text-to-Speech）が可能で日本語のTTSが自然と言われているモデル。
https://github.com/litagin02/Style-Bert-VITS2

この記事の対象者

Style-Bert-VITS2の推奨ハードウェア要件を満たしており、
かつ、以下の用語を理解できる人

git, pip, venv, winget

Style-Bert-VITS2の推奨ハードウェア要件

Pythonのバージョン: Python 3.8 ~ 3.11
3.12の場合はエラーが出る。
使用ディスク量: 約11.16GBの空き容量が必要です。
RAMの使用量: 最低1.8GBのRAMが必要ですが、より快適に動作させるためにはそれ以上の容量を推奨します。
GPU: NVIDIA GPUが推奨されており、特にCUDA対応のものであれば性能が向上します。具体的には、RTX 3000シリーズ以上が望ましいとされています。
学習データ: 学習に必要な音声データやモデルファイルを保存するための十分なストレージが必要です。特に音声合成モデルを使用する場合、大量のデータを扱うため、ストレージ容量は重要です。

これらの要件は、Style-Bert-VITS2を効果的に運用するために必要な基本的なハードウェアスペックです。特にGPUの性能は音声合成処理に大きく影響するため、可能であれば高性能なGPUを使用することが推奨されます

下準備

任意の階層にffmpegをインストール

winget install ffmpeg

パスを通す

・「スタート」メニューから「設定」を開きます。
・「システム」>「詳細情報」>「システムの詳細設定」をクリックします。
・「環境変数」をクリックします。
・「システム環境変数」の「Path」を選択し、「編集」をクリックします。
・「新規」をクリックし、FFmpeg の実行ファイル (ffmpeg.exe) が含まれているディレクトリのパスを入力します。
・「OK」をクリックしてすべてのウィンドウを閉じます。

1.gitをクローン

パスに日本語や空白が含まれない場所にダウンロードして展開します。

 git clone https://github.com/litagin02/Style-Bert-VITS2.git

2.仮想環境を作成し、アクティベーション

cd Style-Bert-VITS2

python -m venv venv

.\venv\Scripts\Activate.ps1

3.依存関係をインストール

pip install -r requirements.txt

4.初期化

python initialize.py

5.起動

Style-Bert-VITS2ディレクトリ配下にある
Editor.batというファイルをダブルクリック
または以下コマンドでTTS用のWebUIを起動できます。

python server_editor.py --inbrowser

Style-Bert-VITS2ディレクトリ配下にある
App.batというファイルをダブルクリック、
または以下コマンドで学習用のWebUIを起動できます。

python app.py

ロード => テキスト入力欄に読ませたいテキストを入力 => 音声合成で音声を読ませることができます。
モデル一覧から好きなモデルを選ぶこともできます。いろんな声を試してみてね！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up