qwen tts でボイスクローン試してみた！（Mac の MPS でローカル動作）

Last updated at 2026-01-29Posted at 2026-01-29

「参照音声を投げて、日本語テキストを読ませる」を Mac だけでサクッと試したかったので、Qwen3-TTS の voice clone を FastAPI で包んでみました。

結論から言うと、

つくったもの

ローカルで動く FastAPI サーバです。

GET /：簡易 Web UI
- 参照音声（ボイス元データ）をアップロード
- 読ませたいテキスト（日本語優先）を入力
- 送信すると tts.wav がダウンロードされる
POST /api/tts：HTTP API（multipart/form-data）

リポジトリは uv で依存管理しています。

uv venv --python 3.12
source .venv/bin/activate
uv sync

初回実行時に Hugging Face からモデルが落ちてきます。

まずはローカルで。

uv run uvicorn tts_api.app:app --host 127.0.0.1 --port 8000

LAN 内の別端末から叩きたいなら 0.0.0.0 バインド。

HF_HOME="$PWD/.cache/huggingface" uv run uvicorn tts_api.app:app --host 0.0.0.0 --port 8010

macOS のファイアウォール許可が出たら通します。

ブラウザで http://127.0.0.1:8000/ を開きます。

コツはこれ:

curl -F "ref_audio=@voice.wav" \
     -F "text=こんにちは。今日は声クローンの実験です。" \
     -F "language=Japanese" \
     http://127.0.0.1:8000/api/tts -o out.wav

500 が返ってきたとき、ログを掘るとこんな落ち方をしていました。

要は「サンプリングの確率が壊れて torch.multinomial が死んだ」パターンです。
MPS と dtype（特に fp16）絡みで、たまにこういう “確率が NaN になる” 系が起きます。

そこで対策を入れました:

ログに /bin/sh: sox: command not found が出ることがあります。
必須ではないケースもありますが、音声処理で使われることがあるので気になるなら入れておくと安心です。

brew install sox

Qwen3-TTS の voice clone、Mac（MPS）でもちゃんと遊べました。

次は、参照音声の前処理（長さ/サンプルレート/正規化）を API 側で固めて、入力ゆらぎで崩れにくくしたいところ。