3

@DifyJapan(Dify)in

Dify｜株式会社LangGenius

DupDubプラグイン、次世代音声 AI 機能で Dify.ai のワークフローを革新

Last updated at 2025-04-01Posted at 2025-04-01

著者：Dify & DupDub の共同創造

DupDub の AI 音声プラグインが Dify マーケットプレイスに正式登場しました。このプラグインは音声翻訳・音声クローニング・話者識別・テキスト読み上げ機能を統合し、ユーザーがより高度な AI アプリケーションを構築するための強力なツールセットを提供します。

DupDub ツールの統合：Dify における高度音声処理の実現

DupDub ツールの Dify 統合により、洗練された音声処理機能を AI ワークフローにシームレスに組み込むことが可能になりました。主な機能は以下の四つ：

音声文字変換：音声/動画コンテンツを高精度でテキスト化。字幕生成やデータ分析の効率化、アクセシビリティ向上を実現する
声紋クローニング：特定話者の音声特性を忠実に再現。ブランド統一性の確保やパーソナライズドアシスタント、地域特化コンテンツの制作に最適です
話者識別：音声ファイル内の複数会話者を自動識別。会議議事録作成・カスタマーサポート分析に活用可能
テキスト音声合成（TTS）：自然な音声を生成。クローンボイス/標準ボイス選択・速度/ピッチ調整で多様な用途に対応する

これらの機能は Dify のビジュアルワークフロービルダー上で直感的に操作可能。手作業を最小限に抑えつつ、音声関連タスクの自動化・効率化を実現します。

事前準備

DifyマーケットプレイスでDupdubを検索し、インストールします
Dupdub公式サイトでAPIキーをゲットします
ステップ２からのAPIキーを入力します

Dupdubツール

音声文字変換ツール

ワークフローへの追加
- 左メニュー「オーケストレーション」選択
- 「ツール」メニューから DupDub プラグイン配下の「音声文字変換（TranscibeSpeech）」を検索
- ツールをワークフローエリアへドラッグ＆ドロップ
基本設定
- 開始ノードと音声文字変換ノードを接続
- 入力変数を設定：
  - 時長（必須）：動画/音声の長さ（秒数）
  - リンク（必須）：ファイルの直リンクURL
  - 言語（必須）："en"（英語）/"ja"（日本語）などISOコード指定
詳細設定
- エラー発生時の再試行回数設定
- エラーハンドリング方法の選択
後続処理
- 文字起こしデータの活用方法を設計（例：自然言語処理モジュールへの連携）
実行と公開
- 「実行」で動作確認後、「公開する」で本番環境へ反映

音声クローニングツール

ワークフローへの追加
- 上記同様の手順で「音声クローニング（Voice Cloning）」ツールを追加
基本設定
- 入力変数を設定：
  - 話者名（必須）：任意の識別名称
  - リンク（必須）：WAV/MP3/MP4形式の音声サンプルURL
  - 言語（必須）：サンプル音声の言語指定
  - 性別（必須）：男性/女性
  - 年齢層（必須）：子供/若年/成人/高齢者
詳細設定
- 再試行設定とエラーハンドリングの選択
後続処理定義
- 生成ボイスの活用方法を設計（例：TTSモジュールとの連携）
実行とデプロイ
- クローンボイスの品質確認後、本番環境へ公開

話者識別ツール

ワークフローへの追加
- 「話者識別（Get Speaker ID）」ツールを追加
基本設定
- 入力変数不要（自動でオーディオ解析）
詳細設定
- 再試行設定とエラーハンドリング
後続処理定義
- 識別結果の活用方法を設計（例：話者別発言の分類）
実行とデプロイ
- 解析精度確認後、本番環境へ反映

音声合成ツール

ワークフローへの追加
- 「音声合成（Speech Synthesis）」ツールを追加
基本設定
- 入力変数を設定：
  - 話者名（必須）：任意の識別名称
  - 話者ID（必須）：クローンボイス/標準ボイスの識別子
  - 速度（任意）：0.5-2.0範囲で設定（デフォルト1.0）
  - 音調（任意）：-20～+20範囲で調整（デフォルト0）
  - テキスト（必須）：合成対象テキスト
詳細設定
- 再試行設定とエラーハンドリング
後続処理定義
- 生成音声の保存/配信方法を設計
実行とデプロイ
- 音声品質確認後、本番環境へ公開

実践ユースケース：構築可能なソリューション例

DupDub ツールの導入により実現する代表的なユースケース：

多言語コンテンツ工場
- 動画字幕自動生成 → 音声クローンでブランド音声維持 → 音声合成ツールで多言語ナレーションを自動生成
次世代のe教育システム
- 講義音声の自動文字に変換 → 講師音声クローンによる個別フィードバック → 音声合成教材の自動生成バック生成
企業DX加速キット
- 通話録音の自動文字に変換 → 話者IDで担当者特定 → 音声分析によるクオリティ管理

参考

DupDub

公式サイト | Discord | Instagram | YouTube | X

Dify.AI

公式サイト | Github | Docs | X | Discord | Linkedin | Youtube

3

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

3