2023年5月1日を持ちまして、株式会社KDDIウェブコミュニケーションズのTwilioリセール事業が終了したため、本記事に記載されている内容は正確ではないことを予めご了承ください。
はじめに
みなさん、こんにちは。
KDDIウェブコミュニケーションズ、Twilioエバンジェリストの高橋です。
この記事は、Twilio Advent Calendar 2022の5日目の記事となります(空いていたので書いてみた)。
みなさん、Twilio Studio 使ってますか?
Twilio Studio はいわゆるノーコードツールで、ドラッグ・アンド・ドロップだけで簡単にコールフローが作れます。
特に、テキストの読み上げ機能などはとても便利で、最近では Polly.Takumi-Neural が使えるようになったので、より自然に発話できるようになりました。
Studio の発話に関する要望
しかし、この部分はもう少しゆっくり喋らしたいとか、もう少し間を長く取りたいなど、細かい要望が出てくることがあります。
そんなときに重要なのが SSML です。
Studio でも SSML(Speech Synthesis Markup Language)が使える
実は、Twilio の TTS(Text-To-Speech)機能の音声エンジンには、Amazon Polly が使われており、TwiML をガリガリとコーディングすれば、SSML で音声を調整することが可能でした(Polly が SSML に対応しているため)が、残念ながら Studio では使えませんでした。
しかし、2022年12月12日から、Twilio Studio の Say/Play ウィジェットと、Gather Input On Call ウィジェット内でも SSML が使えるようになりました!パチパチ。(ん?この記事はアドベントカレンダーの5日目だな。時系列がおかしいけど、まぁいいか)
試してみた
ということで、さっそく以下のような Studio フローを作ってみました。
肝心の発話内容は以下のようになっています。
こんにちは。<break time="3s" />
<prosody rate="x-fast">生麦生米生卵生麦生米生卵生麦生米生卵</prosody>
<break time="1s" />
電話番号は、<say-as interpret-as="telephone">05012345678</say-as>です。
暗証番号は、<prosody rate="slow"><say-as interpret-as="digits">0468</say-as></prosody>です。
なにやら見かけないタグがいっぱい書いてありますね。そう、これが SSML です。
先程も書いたように、Say/Playウィジェットで、Pollyの話者を選んだ場合、これらの SSML が有効になります。
ちなみに、話者に Alice を選んだ場合は、SSML は効きませんが、タグが読み上げられることもありません。
では早速、この音声を聞いてみましょう。
とくに電話番号の読み上げとか、感動しますね。
逆に、暗証番号はもう少し間を開けて読んでほしいです。
細かい要望はありますが、今回の機能拡張はかなりイケてるはずです。
Say/Play ウィジェットで使える SSML の一覧は以下のページに記載があります。
ちなみに、読み上げのテストをするときは、Studio フローの Webhook URL を TwiML Apps に設定して、TwiML Apps のCall using Twilio Client機能を使うと良いです。
まとめ
今回の SSML 対応によって、TTS の性能?が格段に向上します。ぜひ色々とチャレンジしてみてください。
Twilio(トゥイリオ)とは
https://cloudapi.kddi-web.com
Twilio は音声通話、メッセージング(SMS /チャット)、ビデオなどの 様々なコミュニケーション手段をアプリケーションやビジネスへ容易に組み込むことのできるクラウド API サービスです。初期費用不要な従量課金制で、各種開発言語に対応しているため、多くのハッカソンイベントやスタートアップなどにも、ご利用いただいております。
Twilioに関するご相談などがございましたら、ぜひ相談会をご利用ください。
Twilio相談会