高品質なボイスクローンZonosをWindowsで動かすメモ

Last updated at 2025-03-14Posted at 2025-03-14

高品質なボイスクローンのZonosをWindowsで動かそうと思ったら苦労したのでメモ。

日本語も対応しており、かなり高品質な音声合成を体験できました。

環境

Windows11
GPU無し
uvインストール済み

うまくいった方法

uv sync
espeak-ngのインストール
- espeak-ng.msiをダウンロード&インストール
- デフォルトでC:\Program Files\eSpeak NGにインストールされた
ソースコードの修正
- ./gradio_interface.py の最初に追加
```
import os
os.environ["PHONEMIZER_ESPEAK_LIBRARY"]=r"C:\Program Files\eSpeak NG\libespeak-ng.dll"
import torch._dynamo
torch._dynamo.config.suppress_errors = True
```
  - 最初の2行は、ここに書いてあったRuntimeError: espeak not installed on your systemの対応策
  - 次の2行は、実行時You can suppress this exception and fall back to eager by setting:によって表示された対応策
    - なお真面目にRuntimeError: Compiler: cl is not found.に対応しても、次にはUnicodeDecodeError: 'utf-8' codec can't decode byte 0x8d in position 214: invalid start byteのエラー（shift-jisとutf-8の文字コード問題）が出てきて面倒なので、この策に落ち着いた
- .venv/Lib/site-packages/phonemizer/backend/espeak/wrapper.pyのset_voice関数内240行目付近を修正する
```
for voice in self.available_voices():
    if (voice.language not in available) or (voice.language=="ja"):
        available[voice.language] = voice.identifier
```
  - ここに書いてあったRuntimeError: failed to load voice "ja"の対応策
uv run gradio_interface.py
http://localhost:7860/ へのアクセス
- 表示されるhttp://0.0.0.0:7860はアクセスできないのでlocalhostを使う
WebUIのText to Synthesizeに合成したい日本語のスクリプトを記入し、Language Codeを"ja"にしてGenerate Audioを押す
- 1,2分かかって、デフォルト声で合成された音声が再生される
- Optional Speaker Audio (for cloning)に合成したい人の声サンプルをmp3等でいれるとその人の声で合成ができる

だめだった方法

espeak-ngインストール後、環境変数のPATHに追加しても認識しない
Windows用forkレポジトリのpowershell用スクリプト
公式に記載されているDockerの方法

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up