1. はじめに
今回は、自分自身への備忘録を兼ねて、WindowsPC に 音声生成AI(VALL-E X)環境を構築する方法を、お伝えしたいと思います。
- 参考文献:自分のPCにVALL-E Xをインストールして声優の声を真似する
- YouTube:自分のPCにVALL-E Xをインストールして声優の声を真似する
- VALL-E-X(音声生成AI)が気になったので使ってみた
- パソコンニキ:僅かな音声でクローンを作成しテキストから合成音声を生成する (VALL-E X)
- パソコンニキ:PCで音声の録音とノイズを除去する方法
2. この記事を読んでできること
- WindowsPC に 音声生成AI(VALL-E X)環境を構築できるようになる
- 音声生成AI(VALL-E X)を使ってプロンプトからAI音声を作成できるようになる
3. 注意事項
- 18歳以上であること
4. 前提条件
- NVIDIA Geforce RTX VRAM 8BG 以上
- Windows 10 以降(Update済み、管理者権限あり)の PC で、/Windows/System32 にパスが通っていること
- Python 3.10.6 がインストールされていること
- Git for Windows がインストールされていること
5. 必要なもの
- WindowsPC(この記事では Windows11 を利用)
- グラフィックボード(NVIDIAの「GeForce RTX20」シリーズ以降、VRAM8GB以上)
- HDD または SSD(十分なディスク容量があること)
- インターネット環境(有線LAN推奨)
- キーボード
- マウス
- HDMIディスプレイ
6. FFmpeg のインストール
- Download FFmpeg サイト を開く
- 『Windowsアイコン』をクリックし、『Windows builds by Btbn』をクリック
- GitHubサイトから、『ffmpeg-master-latest-win64-gpl.zip』ファイルをダウンロードする
- ダウンロードした.zipファイルを解凍し、「ffmpeg-master-latest-win64-gpl」フォルダを、「C:\Program Files」フォルダ直下にフォルダごとコピーする
- タスクバーの「Windowsアイコン」検索から、『システムの詳細設定』を検索し、起動する
- 「システムのプロパティ」ウィンドウの「詳細設定」タブから、「環境変数」ボタンをクリックする
- 下段の「システム環境変数」jから、「Path」の行を選択し、「編集」ボタンをクリックする
- 「新規」ボタンをクリックし、ffmpeg の「bin」フォルダまでのフルパスをペーストする(例:
C:\Program Files\ffmpeg-master-latest-win64-gpl\bin
) - 「OK」ボタンをクリック後、「OK」ボタンをクリックし、「システムのプロパティ」ウィンドウを閉じる
- 「環境変数」に設定した「Path」を適用するため、一度、Windowsを再起動する
# 7. CUDA Toolkit 11.8 のインストール
-
CUDA Toolkit 11.8 Downloads サイト を開き、cuda_11.8.0_windows_network.exeファイルを任意のフォルダ内(C:\Downloads\cuda\)ダウンロードする
-
ダウンロードしたファイルをダブルクリックし、CUDAをインストールする
-
参考:この記事作成時のファイルバージョン:cuda_11.8.0_windows_network.exe
8. VALL-E-X のセットアップ(所要時間:15分)
- コマンドプロンプトを起動し、VALL-E-X を構築したいフォルダに移動し、git cloneコマンドにて VALL-E-X ソースファイルをダウンロードする
// gitソースをクローン(ダウンロード)
> git clone https://github.com/Plachtaa/VALL-E-X.git
// フォルダを移動
> cd VALL-E-X
// pythonの仮想環境(vall)を作成
> python -m venv vall
// 所定のディレクトリに移動
> cd vall/Scripts
// 仮想環境を活性化(アクティベート)
> activate
// 仮想環境内で2つ上のフォルダに移動
(vall) VALL-E-X\vall\Scripts> cd ../..
// PyTorchおよび関連パッケージをインストール
(vall) VALL-E-X> pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
// プロジェクトの依存関係ファイルインストール
(vall) VALL-E-X> pip install -r requirements.txt
9. GPU動作環境の確認
- GPU動作確認用スクリプトファイル(test.py)を作成し、VALL-E-X フォルダ直下にファイル保存する
- 先ほどのコマンドプロンプトの続きから、GPU動作確認用スクリプトを実行する
- およそ1分後に利用可能なグラフィックボード名が出力されればOK
import torch
# CUDAが利用可能かどうかを確認します
if torch.cuda.is_available():
# GPUの詳細を表示します
print(torch.cuda.get_device_name(0))
else:
print("CUDA is not available.")
// GPU動作確認用スクリプトの実行
(vall) VALL-E-X> python test.py
10. VALL-E X の起動(所要時間:5分)
- 先ほどのコマンドプロンプトの続きから、VALL-E X 起動スクリプトを実行する
- しばらくするとブラウザに VALL-E Xサイト http://127.0.0.1:7860/ が表示される
// VALL-E X の起動
(vall) VALL-E-X> python launch-ui.py
11. サンプル AI音声の生成(所要時間:5分)
-
画面下部の「Examples」欄から、「ja-2.ogg」の行をダブルクリック選択する
-
サンプルデータがセットされるので、「uploaded audio prompt」欄の再生ボタンをクリックし、『まねる元の音声』ファイルを聞いてみる
-
「Text」欄に『読み上げてほしいプロンプト文章』を入力し、『Generate!』ボタンをクリックする
-
数秒ほどで「Output Audio」欄に『AI音声』が生成されるので、再生ボタンをクリックし『AI音声』を視聴する
-
トラブルシューティング:『Generate!』ボタンをクリックした際に「Error」となった場合は、コマンドプロンプト側を確認し、エラー内容を確認しましょう、わたしの環境では、FFmpeg のインストールが抜けており、FFmpegのインストール&Windows再起動にて正常動作を確認できました
12. 次回起動用 run.bat の作成
- 毎回、手動で起動するのは疲れますので、、、Stable Diffusion の run.bat を真似て起動用 run.bat を作成してみました
- run.bat ファイルは
VALL-E-X
フォルダ直下に作成し、お使いください - また、ドライブ名、フォルダパスは、皆さんの環境に合わせて書き換えてお使いください
- run.bat のショートカットファイルをデスクトップなどにコピーしてお使いいただくと、起動が楽になるかと思います
@echo on
D:
cd "D:\Program Files\VALL-E-X"
call vall\Scripts\activate
python "D:\Program Files\VALL-E-X\launch-ui.py"
13. おわりに
いかがでしたでしょうか?WindowsPC に 音声生成AI(VALL-E X)環境を構築することができたのではないかと思います
今回の記事が、みなさまの学習の参考になれば幸いです
2023/11/14 TAKAHIRO NISHIZONO
追記. 音声生成AIサービス「ElevenLabs」について
- 今回ご紹介した「VALL-E X」以外に、既にサービス化されている音声生成AIもあります
- 以下の「ElevenLabs」についてのブログ記事がとても参考になるとおもいますので、ご興味あればご参照ください
- ちなみに、有名なくりえみさんの「英語リップシンク動画」は、この「ElevenLabs」サービスと「Heygen」サービスとの組み合わせで作成されているとのこと
- 参考文献:【ElevenLabs】自分のクローン音声の一番簡単な作り方