著者:Dify & DupDub の共同創造
DupDub の AI 音声プラグインが Dify マーケットプレイスに正式登場しました。このプラグインは音声翻訳・音声クローニング・話者識別・テキスト読み上げ機能を統合し、ユーザーがより高度な AI アプリケーションを構築するための強力なツールセットを提供します。
DupDub ツールの統合:Dify における高度音声処理の実現
DupDub ツールの Dify 統合により、洗練された音声処理機能を AI ワークフローにシームレスに組み込むことが可能になりました。主な機能は以下の四つ:
- 音声文字変換:音声/動画コンテンツを高精度でテキスト化。字幕生成やデータ分析の効率化、アクセシビリティ向上を実現する
- 声紋クローニング:特定話者の音声特性を忠実に再現。ブランド統一性の確保やパーソナライズドアシスタント、地域特化コンテンツの制作に最適です
- 話者識別:音声ファイル内の複数会話者を自動識別。会議議事録作成・カスタマーサポート分析に活用可能
- テキスト音声合成(TTS):自然な音声を生成。クローンボイス/標準ボイス選択・速度/ピッチ調整で多様な用途に対応する
これらの機能は Dify のビジュアルワークフロービルダー上で直感的に操作可能。手作業を最小限に抑えつつ、音声関連タスクの自動化・効率化を実現します。
事前準備
-
DifyマーケットプレイスでDupdubを検索し、インストールします
-
Dupdub公式サイトでAPIキーをゲットします
Dupdubツール
音声文字変換ツール
-
ワークフローへの追加
- 左メニュー「オーケストレーション」選択
- 「ツール」メニューから DupDub プラグイン配下の「音声文字変換(TranscibeSpeech)」を検索
- ツールをワークフローエリアへドラッグ&ドロップ
-
基本設定
- 開始ノードと音声文字変換ノードを接続
- 入力変数を設定:
- 時長(必須):動画/音声の長さ(秒数)
- リンク(必須):ファイルの直リンクURL
- 言語(必須):"en"(英語)/"ja"(日本語)などISOコード指定
-
詳細設定
- エラー発生時の再試行回数設定
- エラーハンドリング方法の選択
-
後続処理
- 文字起こしデータの活用方法を設計(例:自然言語処理モジュールへの連携)
-
実行と公開
音声クローニングツール
-
ワークフローへの追加
- 上記同様の手順で「音声クローニング(Voice Cloning)」ツールを追加
-
基本設定
- 入力変数を設定:
- 話者名(必須):任意の識別名称
- リンク(必須):WAV/MP3/MP4形式の音声サンプルURL
- 言語(必須):サンプル音声の言語指定
- 性別(必須):男性/女性
- 年齢層(必須):子供/若年/成人/高齢者
- 入力変数を設定:
-
詳細設定
- 再試行設定とエラーハンドリングの選択
-
後続処理定義
- 生成ボイスの活用方法を設計(例:TTSモジュールとの連携)
-
実行とデプロイ
話者識別ツール
-
ワークフローへの追加
- 「話者識別(Get Speaker ID)」ツールを追加
-
基本設定
- 入力変数不要(自動でオーディオ解析)
-
詳細設定
- 再試行設定とエラーハンドリング
-
後続処理定義
- 識別結果の活用方法を設計(例:話者別発言の分類)
-
実行とデプロイ
音声合成ツール
-
ワークフローへの追加
- 「音声合成(Speech Synthesis)」ツールを追加
-
基本設定
- 入力変数を設定:
- 話者名(必須):任意の識別名称
- 話者ID(必須):クローンボイス/標準ボイスの識別子
- 速度(任意):0.5-2.0範囲で設定(デフォルト1.0)
- 音調(任意):-20~+20範囲で調整(デフォルト0)
- テキスト(必須):合成対象テキスト
- 入力変数を設定:
-
詳細設定
- 再試行設定とエラーハンドリング
-
後続処理定義
- 生成音声の保存/配信方法を設計
-
実行とデプロイ
実践ユースケース:構築可能なソリューション例
DupDub ツールの導入により実現する代表的なユースケース:
-
多言語コンテンツ工場
- 動画字幕自動生成 → 音声クローンでブランド音声維持 → 音声合成ツールで多言語ナレーションを自動生成
-
次世代のe教育システム
- 講義音声の自動文字に変換 → 講師音声クローンによる個別フィードバック → 音声合成教材の自動生成バック生成
-
企業DX加速キット
- 通話録音の自動文字に変換 → 話者IDで担当者特定 → 音声分析によるクオリティ管理