TTSのプロンプトエンジニアリングで合成音声を人間らしい話し方にした

Last updated at 2024-12-18Posted at 2024-12-18

はじめに

リンクアンドモチベーションのアドベントカレンダーです。
最近TTSをとても触る機会が多かったので記事にしてみました。

Text-to-Speech（TTS）は、文字を音声に変える技術です。たとえば、スマホやカーナビで文章を読み上げるときに使われます。

TTSは次のような仕組みで音声を作ります：

この辺はGPTに出してもらいました。へーそうなんだあ。

TTSを使えるサービスには、たくさんの種類があります。たとえば：

この辺もGPTに出してもらいました。へーそうなんだあ。
私はAmazon Pollyを使っていたので、ここからはAmazon Pollyの音声調整の方法を具体的に話していきます。

TTSでより自然な声を作るには、ただ文字を入れるだけではなく、いくつかの工夫が必要です。

Amazon Pollyでは、音声の速さや高さを調整するタグを使うことができます。

例：

<speak>
  <prosody rate="slow">ゆっくり話します。</prosody>
  <prosody rate="fast">はやく話します。</prosody>
</speak>

Amazon Pollyでは、SSML（音声合成マークアップ言語）を使って発音をコントロールできます。発音記号やカスタム発音を指定することで、正確な発音を実現できます。

例：

<speak>
<phoneme alphabet="x-amazon-pron-kana" ph="アリ'ガトウ">ありがとう</phoneme>
</speak>

発音をコントロールできるということは関西弁を話させることもできます。
例：

<speak>
<phoneme alphabet="x-amazon-pron-kana" ph="アリガ'ト'ウ">ありがとう</phoneme>
</speak>

日本語では、漢字にふりがなを振ることで正確な発音を指定できます。
たとえば、文脈によって読み仮名が変わるような「行った」という言葉は以下のように指定することができます。

<speak>
<phoneme alphabet="x-amazon-yomigana" ph="いった">行った</phoneme>
<phoneme alphabet="x-amazon-yomigana" ph="おこなった">行った</phoneme>
</speak>

日本語は難しいらしく、調整が必要な言葉がたくさん出てきます。
たとえば以下のような言葉は発音や読み仮名を調整する必要がある場合が多いです。

<speak>
<phoneme alphabet="x-amazon-pron-kana" ph="サ'ン'カ'ン'シ'オン">三寒四温</phoneme>
</speak>

<speak>
<phoneme alphabet="x-amazon-pron-kana" ph="サン'バ'イズ">三杯酢</phoneme>
</speak>

音声に自然な間を作ることで、聞き取りやすくなります。
特に説明文やリストを読み上げる場合に効果的です。
これがマジで大事で、人間っぽい聞き取りやすい話し方は間があるかどうかにもよるなと思いました。

例：

<speak>
  待って... それは何ですか？
  <break time="1s"/>
  今わかりました。
</speak>

TTSの調整をすることで人間の喋りが上手になるかなと思ってたら
音声を聴きすぎてこっちの喋り方が機械に寄りました。