TTS
Alexa
関西弁

Alexaねぇさんに関西弁をしゃべらせてみる

Alexaねぇさんの声でどこまで関西弁をうまく発話できるか実験してみたいと思います。

準備

①スキルを用意する

発話調整するまでのステップはAmazon Echo Alexaスキル 開発チュートリアルなどの記事を見て済ませておきます。

alexa_step_check.png

②発話調整の用意をする

ここを使います。
alexa_test.png

あとは<speak>ほげほげ</speak>のところに好きなこと書いて再生ボタンを繰り返せばOKですね。

つくる

①セリフをさがす

今回は小藪さんがすべらない話で話していた、スノーボードのネタからこのセリフを抜粋してしゃべらせてみたいと思います。

そぉっとオカリナ吹くな!

※関西弁ネイティブでない方はかならずお手本を用意しましょう。

②完成イメージを決める

私はTTSの調整をする時にいつもこういうイメージを頭の中で作ってから、音の高低差を狙ってつくります。
Screen Shot 2018-05-14 at 20.27.05.png
※ Alexaねぇさんに限らず、この完成系がわからない人は一生音声調整とかできないので今すぐ諦めましょう。
(特殊な訓練受ければできるのかも?)
参考までに、「はし」の同音異義語で「橋」「箸」「端」それぞれ「は」と「し」を比較した時にどちらの文字が高くなっているか違いがわからない人は上記に該当する可能性が高いです。

③日本語だけでまずがんばる

今回は2種類の手法を組み合わせて挑戦してみたいと思います。
・ひらがな・カタカナ・漢字・記号でがんばる
SSMLでがんばる

まずは文字のバリエーションが豊かな日本語の特徴を生かしてざっくり調整します。
音の高低差を精密に狙える人はいきなりSSMLを使っても良いと思います。
SSMLは使いすぎると変な間ができることがあるので、私はベースの高低差をなるべく日本語の文字列だけで作って、高低差を大きくするのにSSMLを使うのが好みです。

まずそのまま台本通りの文字列を入れてみて、理想との差分を確認。

<speak>
    そぉっとオカリナ吹くな!
</speak>
  • 「そぉっと」が標準語っぽい
  • 「オカリナフクナ」っていう一単語みたいに聞こえる

「単語」や「文節」「フレーズ」などの単位で一箇所ずつ狙って調整していきます。

まずは「そぉっと」の部分を集中攻撃してみます。
経験的に「カタカナはなんとなく音を上げやすい」傾向がある(気がする)ので、一部をカタカナにしてみます。

<speak>
    ソオオっとオカリナ吹くな!
</speak>

ちょっとそれっぽくなりました。

次に「オカリナフクナ」の部分。
「オカリナ」自体はさほど特殊な単語でもないと思うので、「吹くな!」の文字列に何らかの影響を受けて聞いたこともないイントネーションになっちゃったのかな、Alexaねぇさん日本語下手だなかわいいな、という想像のものと、「オカリナ」部分には手を入れず、「吹くな!」を最初にいじってみます。

ひらがな

<speak>
    ソオオっとオカリナふくな!
</speak>

「オカリナ」のイントネーション変わらず。

カタカナ

<speak>
    ソオオっとオカリナフクナ!
</speak>

「オカリナ」のイントネーションが正常になりました。
「吹くな!」のイントネーションもベースの高低は外れていないので、日本語だけでの調整はいったんここまでにしておきます。

④SSMLでがんばる

今回は「音の高低差」を調整したいので、prosodyタグをメインで使っていきます。

Screen Shot 2018-05-14 at 20.27.05.png
完成イメージをもとに、「ぉっ」をもうちょっと、「くな!」「く」を特に思いっきり上げたいので、こんな感じでpitchの値を上げ下げしてみます。

<speak><prosody pitch="+5%">オオ</prosody><prosody pitch="+0%">っと</prosody>オカリナフ<prosody pitch="+45%">クナ!</prosody>
</speak>

この状態でもう関西弁になりました。

前後に文章がくっつく時は、おまけでemphasisタグとか使ってみます。

<speak>
    <prosody rate="105%">大丈夫ですか優たら、</prosody><prosody rate="70%">おぉー、</prosody>やデ、
    <prosody rate="155%">
        <emphasis level="strong"><prosody pitch="+5%">オオ</prosody><prosody pitch="+0%">っと</prosody>オカリナフ<prosody pitch="+45%">クナ!</prosody>
        </emphasis>
    </prosody>
</speak>

※改行位置でも読み方変わります。

おわりに

ちゃんとしたもの作りたいなら音声ファイルでやればいいよね。