ジャーニーマン( @beajourneyman )です。
Amazon Polly で音声合成して Amazon Connect の音声プロンプトを実装する際に都度調べたりする手間を省くために備忘録をまとめます。
Amazon Polly
Tomoko と Kazuha が登場しました。「Mizuki じゃないの?」とは思いましたが、嬉しいアップデートでした。Polly のポータルもまとめておきます。担当システム界隈では Tomoko が人気です。
SSML 音声合成マークアップ言語
この2本は本当に重要な情報の宝庫です。必読のリファレンスです。
トークスクリプトでチューニングしたいモノ(適宜追加)
失礼いたします
「失礼いたします」は結構重要な気がします。残念ながらMP3ファイルが掲載できないのです(やり方をご存知の方教えてください!!)が、SSMLだけメモ。ちなみに検証は「ニューラル Tomoko」でやってます。
<speak>
失礼いたします。
</speak>
調整後、こっちの方がまなってない気がしてます。
<speak>
<phoneme alphabet="x-amazon-pron-kana" ph="シツ'レイ">失礼</phoneme>いたします
</speak>
似た固有名詞でもイントネーションがガラッと変わる
「カネイシ」だとイントネーションが普通に感じ、「ミネイシ」だとなまって感じます。こちらはニューラルのTomoko、Kazuha、スタンダードのMizukiでも感じました。
事前に用意するケースは少ないですが、お名前のように可変で埋め込む音声の場合は、固有名詞を判定して以下のSSMLを書く対策は現実的ではないです。比較的ニューラル音声が聞き取りやすいので音声エンジンを変えるくらいでしょうか?知見があれば、教えてください。
<speak>
<phoneme alphabet="x-amazon-pron-kana" ph="ミネ'イシ">みねいし</phoneme>
</speak>
書いていて、標準語のイントネーションを確信を持って合ってると言えるのか疑問に思いました。関西とか西日本について考えると、何が正解は地域で変わったりするのかもしれません。
今後も気が付いたら備忘を追記して行こうと思います。
以上です。