fish-speech をLinuxにインストールして使う方法

Last updated at 2025-02-13Posted at 2025-02-13

ゼロショット & 少数ショット TTS
10秒から30秒の短い音声サンプルを入力するだけで、高品質な音声を生成できます。詳細は音声クローン最佳实践指南をご覧ください。
多言語 & クロスランゲージサポート
英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語など、多言語テキストを簡単に処理できます。
音素依存なし
強力な汎化能力を持ち、音素を必要とせずに任意の文字表現を処理可能です。
高精度
5分の英語テキストで、約2%のCER（文字誤り率）とWER（単語誤り率）を達成しています。
高速推論
Nvidia RTX 4060ではリアルタイムファクター約1:5、RTX 4090では約1:15の高速処理を実現。
WebUI 推論
Gradioベースの直感的なWebインターフェースを提供し、Chrome、Firefox、Edgeなど主要ブラウザで利用可能。
GUI 推論
PyQt6を使用したグラフィカルインターフェースも提供されており、Linux、Windows、macOSで動作します。詳細はこちら。
簡単なデプロイ
推論サーバーを簡単にセットアップでき、速度の低下を最小限に抑えます。

1. fish-speech のインストール

まず、condaを使用してPython 3.11の仮想環境を作成します。

conda create -n fish-speech python=3.11 -y
conda activate fish-speech

fish-speechのリポジトリをクローンし、ディレクトリに移動します。

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech/

必要なパッケージをインストールします。以下のコマンドを使用してください。

pip install -e .[stable] -i https://pypi.tuna.tsinghua.edu.cn/simple

huggingface_hubをインストールし、事前学習済みモデルをダウンロードします。

pip install huggingface_hub
huggingface-cli download --resume-download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5

以下のコマンドでfish-speechを起動します。

./entrypoint.sh

初回実行時には、必要なモデルやリソースが自動的にダウンロードされます。

fish-speechを起動した後、ブラウザでhttp://127.0.0.1:7860/にアクセスします。

以上が、Linux環境でのfish-speechのインストールと使用方法です。ぜひお試しください！