合成音声で日本語のイントネーションをどうにかしたい!
やりたいのはそれだけ。
SSMLを使う
SSML : 音声合成マークアップ言語 - Speech Synthesis Markup Language
使うタグは prosody pitch
prosodt の pitch を使うことで音の高さを変えることができます。
なんとなく文章全体に使いそうな属性なのですが、これを「文字」単位にかけていきます。
例!「コーヒー」
標準的な発音ではこんな感じです。
ただわたしは出身が北海道なので……こうなります。
これをやってみます。
まず標準的なのはそのままでいいのでこう。
コーヒー
北海道バージョンだとこう。
<prosody pitch="+20%">コー</prosody><prosody pitch="-20%">ヒー</prosody>
一文字ずつピッチを変えても自然に聞こえるのかな?と一瞬思ってしまいますが、そこは昨今の合成音は非常にかしこくてまったく違和感なくできてしまいます。
まとめ
prosody pitch を使おう!