DifyとOpen Audioのコラボレーションを始めました。Open Audioの多機能なFish Audioプラグインが、今、Dify Marketplaceで利用可能になりました。この統合により、DifyのユーザーはAIアプリに高品質なテキスト読み上げ(TTS)とボイスクローニング(Voice Cloning)をシームレスに組み込むことができます。
Fish Audioの主な機能
Fish Audioは音声生成とボイスクローニングを提供しています:
-
音声生成(TTS): Fish Audio は、リアルタイムのテキスト音声変換を提供する強力なツールです。WebSocket API を使用したストリーミング音声出力に対応し、速度や音量などのパラメーターを制御可能です。Opus、MP3、WAV などの主要な音声形式をサポートしています。
-
ボイスクローニング(Voice Cloning): このツールは2つのオプションがあります:
- 高速クローニング:30-45秒の音声サンプルで可能;
- 高精度クローニング:高品質な音声データを30-180分使用し、より自然な結果を生成;多言語と感情表現をサポートし、最高品質の出力を保証するためには入力音声品質を厳格く設定しています。
事前準備
-
DifyでFish Audioツールを使用するには、Dify Marketplace から「Fish Audio」プラグインを探し、インストールします。
-
プラグインを設定します。Fish Audio APIキーとエンドポイントURLを入力し、バランスモードを選択します。これらの情報はこちらから取得できます。
使用手順
このユースケースでは、Difyのチャットフローを紹介します。このフローにおいて、大規模言語モデル(LLM)がテキストを生成すると、その出力テキストはFish AudioのTTSツールノードを通じて自動的に音声セグメントへ変換可能です。
Fish Audio TTSノードをワークフロー内で設定するには:
-
入力テキスト: 音声に変換したいテキストを指定します。この場合、LLMノードからのテキスト出力をTTSノードの入力フィールドにリンクします。
-
出力形式: 好みのオーディオファイル形式を設定します。
この設定により、ワークフローがLLMの書き出された応答を、選択したボイスと形式で音声として生成することができます。
Voice IDとは
Voice ID(音声ID)は、Fish Audioプラットフォーム上の特定の音声モデルに割り当てられる一意の識別子です。テキストを音声に変換する際に選択・生成するための独立した音声プロファイルを指します。
カスタムボイスについて
提供されだボイスに限らず、Fish Audioの「ボイスクローン」機能を使用して、独自の音声モデルをトレーニングできます。トレーニングが完了すると、カスタムトレーニングした音声が「私の声のライブラリ」にリストされます。そこからカスタム音声に関連するVoice IDをコピーし、Difyのワークフローで使用できます。
活用事例
多言語対応の顧客サービス担当者
Fish Audioは、ASR(自動音声認識)とTTS(テキスト音声変換)技術を統合し、多言語カスタマーサポートを実現します。優れた担当者の音声をクローン化し、顧客の言語を自動検知して適切な音声・言語に切り替え、テキスト応答を自然な音声に変換。多言語対応の一貫性とパーソナライズを確保します。
教育およびトレーニングコンテンツ
Fish Audioは、ネイティブスピーカーの音声をクローン化して発音例を提供し、ASR技術で学習者の発音にリアルタイムフィードバックを行い、TTSで教材の一貫した音声解説を生成。教育コンテンツの効率的な作成と配信を実現し、標準化を確保します。
ポッドキャストとメディアコンテンツ
Fish Audioは、ポッドキャストやメディアコンテンツ制作を効率化します。自身の音声サンプルからデジタル音声を生成し、原稿を音声に変換。ASRで字幕や文字起こしを自動生成し、話速や感情表現を調整してクリエイティブなニーズに合わせた音声を制作可能です。
参考
Fish Audio
公式サイト | Github | FishAudio | X | Discord
Dify
公式サイト | Github | Docs | X | Discord | Linkedin | Youtube