0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Fish Speech をローカルで動かしてみた

Last updated at Posted at 2025-01-18

Fish Speech を使ってみたので, 手順と感想など

Fish Speech とは

Fish Speech V1.5 is a leading text-to-speech (TTS) model trained on more than 1 million hours of audio data in multiple languages.

Supported languages:
English (en) >300k hours
Chinese (zh) >300k hours
Japanese (ja) >100k hours
German (de) ~20k hours
French (fr) ~20k hours
Spanish (es) ~20k hours
Korean (ko) ~20k hours
Arabic (ar) ~20k hours
Russian (ru) ~20k hours
Dutch (nl) <10k hours
Italian (it) <10k hours
Polish (pl) <10k hours
Portuguese (pt) <10k hours

動作環境

  • OS: Ubuntu Server 22.04.5 LTS
    • NVIDIA ドライバ: nvidia-driver-565-server
  • CPU: AMD Ryzen 3700X
  • RAM: DDR4 64GB
  • GPU: NVIDIA RTX 3090 FE

Fish Speech インストール

環境構築

参考文献: https://speech.fish.audio/ja/#linux

conda create -n fish-speech python=3.10
conda activate fish-speech

pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1

apt install libsox-dev ffmpeg

apt install build-essential \
    cmake \
    libasound-dev \
    portaudio19-dev \
    libportaudio2 \
    libportaudiocpp0

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

pip3 install -e .[stable]

モデルファイルの配置

参考文献: https://github.com/fishaudio/fish-speech/blob/main/inference.ipynb

HuggingFace のファイルが一式ダウンロードされる.

huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5/

WebUI 起動

# 外部からアクセスできるようにする.
export GRADIO_SERVER_NAME="0.0.0.0"

python tools/run_webui.py \
    --llama-checkpoint-path checkpoints/fish-speech-1.5 \
    --decoder-checkpoint-path checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth \
    --compile \
    --theme dark  # dark theme

7860 ポートにブラウザからアクセスする.

{4B5FB618-E4CA-4C45-9C0E-B22C8A32655F}.png

「Reference Audio」でサンプルボイスを入力として追加すると,
サンプルボイスに似た声で音声が生成される.

{ECA188E5-4F27-421A-A06E-10F88CD66AED}.png

実行結果

Input Text

Fish Audio は、音声合成と音声処理を強化するために設計された多様なオーディオソリューションを提供します。主な製品には、先進的なテキスト読み上げ技術と深層学習モデルを活用した Fish Speech と Fish Diffusion が含まれています。これらのツールは、プロのサウンドデザインからカジュアルな使用までさまざまなアプリケーションに適しており、ユーザーがオーディオを効率的に作成、操作、合成できるようにします。革新的な機能を備えた Fish Audio のツールは、技術に精通したクリエイターもカジュアルなユーザーも柔軟に対応します。

Generated Audio

audio.png
※ wav 形式のファイルはアップロードできなかったため, 再生する場合は手元にダウンロードして拡張子を .wav に変更してください. (Qiita 不便だなぁ… # ゚Д゚)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?