目次
0. fish-speech の特徴
fish-speech は、以下のような特徴を持つ先進的な音声合成ツールです。
-
ゼロショット & 少数ショット TTS
10秒から30秒の短い音声サンプルを入力するだけで、高品質な音声を生成できます。詳細は音声クローン最佳实践指南をご覧ください。 -
多言語 & クロスランゲージサポート
英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語など、多言語テキストを簡単に処理できます。 -
音素依存なし
強力な汎化能力を持ち、音素を必要とせずに任意の文字表現を処理可能です。 -
高精度
5分の英語テキストで、約2%のCER(文字誤り率)とWER(単語誤り率)を達成しています。 -
高速推論
Nvidia RTX 4060ではリアルタイムファクター約1:5、RTX 4090では約1:15の高速処理を実現。 -
WebUI 推論
Gradioベースの直感的なWebインターフェースを提供し、Chrome、Firefox、Edgeなど主要ブラウザで利用可能。 -
GUI 推論
PyQt6を使用したグラフィカルインターフェースも提供されており、Linux、Windows、macOSで動作します。詳細はこちら。 -
簡単なデプロイ
推論サーバーを簡単にセットアップでき、速度の低下を最小限に抑えます。
1. fish-speech のインストール
1.1 仮想環境の作成
まず、conda
を使用してPython 3.11の仮想環境を作成します。
conda create -n fish-speech python=3.11 -y
conda activate fish-speech
1.2 リポジトリのクローン
fish-speech
のリポジトリをクローンし、ディレクトリに移動します。
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech/
1.3 依存関係のインストール
必要なパッケージをインストールします。以下のコマンドを使用してください。
pip install -e .[stable] -i https://pypi.tuna.tsinghua.edu.cn/simple
1.4 モデルのダウンロード
huggingface_hub
をインストールし、事前学習済みモデルをダウンロードします。
pip install huggingface_hub
huggingface-cli download --resume-download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5
2. fish-speech の実行
以下のコマンドでfish-speech
を起動します。
./entrypoint.sh
初回実行時には、必要なモデルやリソースが自動的にダウンロードされます。
3. WebUI を使用した推論
fish-speech
を起動した後、ブラウザでhttp://127.0.0.1:7860/
にアクセスします。
4.1 テキストと音声の入力
- テキスト入力: 推論したいテキストを入力します。
- 参照音声のアップロード: 参照音声ファイルをアップロードします。
- 参照音声のテキスト入力: 参照音声に対応するテキストを入力します。
- 推論開始: 「生成」ボタンをクリックして推論を開始します。
4. 参考資料
以上が、Linux環境でのfish-speech
のインストールと使用方法です。ぜひお試しください!