watsonx Orchestrateは様々なチャネル機能を提供しますが、Genesysのオーディオ・コネクターやSIPトランクを用いて電話回線と接続し、音声によってエージェントを使用することも可能です。Speech to TextやText to Speech、VAD(Voice Activity Detection)の機能なども提供しており、DeepgramやElevenLabsと連携して簡単に音声エージェントを公開可能です。今回はElevenLabsを用いて、自分の声のボイスモデルを作成し、watsonx Orchestrateから使用する一連の流れを説明したいと思います。
2026/06/02時点では、watsonx OrchestrateでElevenLabsはTTSのみ対応しており、またElevenLabsのアカウントは有料アカウントまたはエンタープライズ試用アカウントのみ連携可能です。個人用無料アカウントでは利用できないことに注意してください。
ボイスの作成
ElevenLabs上で自分のボイスクローンを作成します。インスタントボイスクローンは10秒程度の音声をマイクで読み上げるだけでクローンが作れます。プロフェッショナル ボイスクローンでは、30分以上の音声を用いてボイスを作成します。今回は両方で試してみました。
プロフェッショナル ボイスクローンは、2時間程度で処理が完了しました。
テキストを指定して、作成したボイスの確認をすることが可能です。また、ボイスを公開することでマネタイズすることもできるようなので声に自信のある方は是非お試しください。
APIキーの発行
左側のメニューのデベロッパーからAPIキーを発行してメモします。
テキスト読み上げ、ボイス、モデルに対して権限を付与することを忘れないでください。
音声設定の作成
watsonx Orchestrateにログインし、管理>音声より音声設定を作成します。Speech to TextはDeepgramを選択することでAPIキーなしに使用することが可能です。Text to SpeechでElevenLabsを選択し、先ほどコピーしたAPIキーを設定します。
正しくアクセス権が付与されていればモデルのリストが表示されるので作成したボイスを選択します。
エージェントへの設定
エージェントへの設定は音声モダリティの設定として作成した音声設定を指定するだけでOKです。これだけで、音声を用いてエージェントを使用することが可能になります。
音声サンプル
プレビュー画面でのエージェントの発話は以下のようになりました。
各種パラメータの設定にも依存するかもしれませんが、プロフェッショナル ボイスクローンの方が声の質としては似ています。発話の安定性という観点では、インスタント ボイスクローンでも十分だと思いました。今回、プロフェッショナル ボイスクローンに学習させたのは、会議の録画だったので、求めている発話に近い学習データを用意することでより高品質なボイスが作成できるのではないかと思います。
まとめ
watsonx Orchestrateは音声エージェントを実装するための機能を提供しており、簡単に音声エージェントを提供することが可能です。今回ElevenLabsと提携されたことで、より自然で表現力豊かな音声対話を選択できるようになりました。企業の顧客対応や社内ヘルプデスクの体験を大きく向上させる強力なオプションとして、今後の活用が非常に楽しみです。




