Fish Speech を使ってみたので, 手順と感想など
Fish Speech とは
- May 25 2024 に発表された Text to Speech AI
- OSS
- Apache License 2.0
- もともと商用利用不可のライセンスだったが, Dec 11 2024 のコミット (https://github.com/fishaudio/fish-speech/pull/740/commits/a2619791a13d8822b7d0b18c095192d6b39f88b7) で Apache 2.0 に変わった模様
- GitHub リポジトリ: https://github.com/fishaudio/fish-speech
- 日本語にも対応
Fish Speech V1.5 is a leading text-to-speech (TTS) model trained on more than 1 million hours of audio data in multiple languages.
Supported languages:
English (en) >300k hours
Chinese (zh) >300k hours
Japanese (ja) >100k hours
German (de) ~20k hours
French (fr) ~20k hours
Spanish (es) ~20k hours
Korean (ko) ~20k hours
Arabic (ar) ~20k hours
Russian (ru) ~20k hours
Dutch (nl) <10k hours
Italian (it) <10k hours
Polish (pl) <10k hours
Portuguese (pt) <10k hours
動作環境
- OS: Ubuntu Server 22.04.5 LTS
- NVIDIA ドライバ: nvidia-driver-565-server
- CPU: AMD Ryzen 3700X
- RAM: DDR4 64GB
- GPU: NVIDIA RTX 3090 FE
Fish Speech インストール
環境構築
参考文献: https://speech.fish.audio/ja/#linux
conda create -n fish-speech python=3.10
conda activate fish-speech
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1
apt install libsox-dev ffmpeg
apt install build-essential \
cmake \
libasound-dev \
portaudio19-dev \
libportaudio2 \
libportaudiocpp0
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
pip3 install -e .[stable]
モデルファイルの配置
参考文献: https://github.com/fishaudio/fish-speech/blob/main/inference.ipynb
HuggingFace のファイルが一式ダウンロードされる.
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5/
WebUI 起動
# 外部からアクセスできるようにする.
export GRADIO_SERVER_NAME="0.0.0.0"
python tools/run_webui.py \
--llama-checkpoint-path checkpoints/fish-speech-1.5 \
--decoder-checkpoint-path checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth \
--compile \
--theme dark # dark theme
7860 ポートにブラウザからアクセスする.
「Reference Audio」でサンプルボイスを入力として追加すると,
サンプルボイスに似た声で音声が生成される.
実行結果
Input Text
Fish Audio は、音声合成と音声処理を強化するために設計された多様なオーディオソリューションを提供します。主な製品には、先進的なテキスト読み上げ技術と深層学習モデルを活用した Fish Speech と Fish Diffusion が含まれています。これらのツールは、プロのサウンドデザインからカジュアルな使用までさまざまなアプリケーションに適しており、ユーザーがオーディオを効率的に作成、操作、合成できるようにします。革新的な機能を備えた Fish Audio のツールは、技術に精通したクリエイターもカジュアルなユーザーも柔軟に対応します。
Generated Audio
※ wav 形式のファイルはアップロードできなかったため, 再生する場合は手元にダウンロードして拡張子を .wav に変更してください. (Qiita 不便だなぁ… # ゚Д゚)