Fish Speech をローカルで動かしてみた

Last updated at 2025-01-18Posted at 2025-01-18

Fish Speech を使ってみたので, 手順と感想など

Fish Speech とは

May 25 2024 に発表された Text to Speech AI
OSS
Apache License 2.0
- もともと商用利用不可のライセンスだったが, Dec 11 2024 のコミット (https://github.com/fishaudio/fish-speech/pull/740/commits/a2619791a13d8822b7d0b18c095192d6b39f88b7) で Apache 2.0 に変わった模様
GitHub リポジトリ: https://github.com/fishaudio/fish-speech
日本語にも対応

Fish Speech V1.5 is a leading text-to-speech (TTS) model trained on more than 1 million hours of audio data in multiple languages.

Supported languages:
English (en) >300k hours
Chinese (zh) >300k hours
Japanese (ja) >100k hours
German (de) ~20k hours
French (fr) ~20k hours
Spanish (es) ~20k hours
Korean (ko) ~20k hours
Arabic (ar) ~20k hours
Russian (ru) ~20k hours
Dutch (nl) <10k hours
Italian (it) <10k hours
Polish (pl) <10k hours
Portuguese (pt) <10k hours

動作環境

OS: Ubuntu Server 22.04.5 LTS
- NVIDIA ドライバ: nvidia-driver-565-server
CPU: AMD Ryzen 3700X
RAM: DDR4 64GB
GPU: NVIDIA RTX 3090 FE

Fish Speech インストール

環境構築

参考文献: https://speech.fish.audio/ja/#linux

conda create -n fish-speech python=3.10
conda activate fish-speech

pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1

apt install libsox-dev ffmpeg

apt install build-essential \
    cmake \
    libasound-dev \
    portaudio19-dev \
    libportaudio2 \
    libportaudiocpp0

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

pip3 install -e .[stable]

モデルファイルの配置

参考文献: https://github.com/fishaudio/fish-speech/blob/main/inference.ipynb

HuggingFace のファイルが一式ダウンロードされる.

huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5/

WebUI 起動

# 外部からアクセスできるようにする.
export GRADIO_SERVER_NAME="0.0.0.0"

python tools/run_webui.py \
    --llama-checkpoint-path checkpoints/fish-speech-1.5 \
    --decoder-checkpoint-path checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth \
    --compile \
    --theme dark  # dark theme

7860 ポートにブラウザからアクセスする.

「Reference Audio」でサンプルボイスを入力として追加すると,
サンプルボイスに似た声で音声が生成される.

実行結果

Input Text

Fish Audio は、音声合成と音声処理を強化するために設計された多様なオーディオソリューションを提供します。主な製品には、先進的なテキスト読み上げ技術と深層学習モデルを活用した Fish Speech と Fish Diffusion が含まれています。これらのツールは、プロのサウンドデザインからカジュアルな使用までさまざまなアプリケーションに適しており、ユーザーがオーディオを効率的に作成、操作、合成できるようにします。革新的な機能を備えた Fish Audio のツールは、技術に精通したクリエイターもカジュアルなユーザーも柔軟に対応します。

Generated Audio

※ wav 形式のファイルはアップロードできなかったため, 再生する場合は手元にダウンロードして拡張子を .wav に変更してください. (Qiita 不便だなぁ… # ﾟДﾟ)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up