Webページを見やすくするためにCSSを利用するように、音声もそのままだと利用者に伝えにくいのではないかと考えました。
それぞれのサービスに合う声(男性や、女性、方言など)があると思います。
どのようなCSS(Text to Speech)を使用すれば、UI/UXの向上に繋がるのか?
今回、**「これはテスト音声です」**という文言を、有名なサービスで収録し、違いがわかるようにしました。
Twilio
Alice
Twiliの基本となる音声です。
手軽に利用できることがメリットですが、イントネーションなどが気になる部分があります。
使用方法
voiceにalice
を設定します。
<Say voice="alice" language="ja-JP">これはテスト音声です</Say>
料金
標準の機能であるためFreeです。
Polly.Mizuki / Polly.Takumi
AWSのPollyを使用した音声です。
標準のalice
に比べ聞き取りやすさや、滑らかさが向上します。
▼Polly.Mizuki 音声
▼Polly.Takumi 音声
使用方法
voiceにPolly.Mizuki
、またはPolly.Takumi
を設定します。
<Say voice="Polly.Mizuki" language="ja-JP">これはテスト音声です</Say>
<Say voice="Polly.Takumi" language="ja-JP">これはテスト音声です</Say>
料金
100文字あたり、$0.00080なので、今回だと0.1円(113円換算)ほどです。
Polly.Takumi Neural
つい先日、AWS Polly Neuralに日本語が追加されました。
かなり品質が向上しているように思います。
現状は、Polly.Takumi
だけですが、Polly.Mizuki
も期待できそうです!
使用方法(仮)
現在、ドキュメントには記載されていませんが、他の設定値より、Twilio使用時の設定は、Polly.Mizuki-Neural
になると思われます。
<Say voice="Polly.Mizuki-Neural" language="ja-JP">これはテスト音声です</Say>
料金
100文字あたり、$0.0032なので、今回だと0.36円(113円換算)ほどです。
Azure Text to Speech
七海 / 圭太
今回のサンプルでは、わかりにくいかもしれませんが、長文の方も滑らかに聞こえました。
個人的に、圭太の早口具合が気になっています。
使用方法
料金
プランにより差があるため、なかなかわかりにくいです。
無料枠を超えると課金されます。
Google Text to Speech
ja-JP-Wavenet-A / ja-JP-Wavenet-B / ja-JP-Wavenet-C / ja-JP-Wavenet-D
他社のサービスと違い名称が人の名前ではありません。
AとBが女性、CとDが男性の声となっています。
▼ja-JP-Wavenet-A 音声
▼ja-JP-Wavenet-B 音声
▼ja-JP-Wavenet-C 音声
▼ja-JP-Wavenet-D 音声
使用方法
料金
上記のwavenetタイプの場合、100万文字までは無料です。
無料枠を超えると課金されます。
Watson Text to Speech Voices
Emi
他のサービスと比べると今一歩な印象です。
この精度であれば、私なら、Alice
を使う気がします。
使用方法
料金
標準的なプランの場合、1000文字、$0.02です。
https://www.ibm.com/jp-ja/cloud/watson-text-to-speech/pricing
AquesTalk
組み込み向けのライブラリなので、他とはすこし異なります。
マイコンにも組み込み可能ほど小さいものもあります。
ゆっくり霊夢 / ゆっくり魔理沙
AquesTalkは、音質を自由に変更可能なのですが、有名設定は、Youtubeの「ゆっくり実況」などでよく使用されている音声です。
他の違い、独特な音声となってますが、その分個性を発揮しやすいかなと思います。
※慣れると、イントネーションがおかしくても気にならなくなるのがすごい。
使用方法
料金
ライセンス制となっており、使用の状況により変わります。
https://www.a-quest.com/licence.html
AITalk
琴葉 茜 / 琴葉 栞
老人や、子供などたくさんのキャラクターが存在しているAITalkが提供している関西弁に対応した茜と標準の栞です。
使用方法
URLのクエリとしてパラメータを設定できるため、簡単にTwilioで使用することが可能です。
※他のサービスの場合、一度音声データを保存して使用することになるのでちょっと不便。
<Play loop="10"> URLを指定 </Play>
料金
CoeFont
他のサービスと異なり、自分で音声を作れるのが特徴です。
個人が自由に作れるため膨大な量の声が選択可能です。
ひげだるま
どのくらいの精度がでるか?
私の肉声と、合成音声を用意しましたので聞き比べてみてください。
赤い芸人 / 【ヤシロこーいち】国民的お父さん風読み上げ / 【畑耕平】クセが凄いキャラ風読み上げ
提供さているCoeFontを使用すると、赤い芸人や、日曜の夕方のアニメで聞いたことのあるような声(モノマネ)も、簡単に再現することができます。
▼赤い芸人 音声
▼ヤシロこーいち (国民的アニメのお父さん風) 音声
▼畑耕平(国民的アニメの同僚風) 音声
使用方法
C#を使った場合はこちらを参考に!
https://qiita.com/masaya3/items/2391c012d9c87c53680a
料金
CoeFontはポイント制です。
ライトプランの場合、月500円で、50000ポイントが付与されます。
各CoeFontの使用ポイントは、個人で設定することが可能となっています。
例えば「赤い芸人」であれば5ポイント、それ以外であれば50ポイントが、1文字使用するごとに消費されます。
※自分の声の場合は、5ポイント消費されます
今回の場合ですと、赤い芸人であれば0.5円、それ以外は5円が課金されたことになります。
まとめ
Polly.Takumi Neural
の完成度が素晴らしいです。
早くPolly.Mizuki
も対応していただきたい!
coeFontもかなり良いのですが、お値段が可愛くありません。
しかし、個性を出しやすく、サービス次第ではかなり有効になると思われます。
※電話をあまりかけないような世代に訴求するためAquesTalkさんの音声も捨てがたい気もします。
手軽に利用するという意味では、AITalkさんが抜群に使いやすいです。
他のサービスの場合、一度音声データを保存して、利用する形になりますが、<Play>
タグに渡せるのはかなり便利です。
同じ言葉でも、発話する音声により、イメージや聞き取りやすさがかなり変わることがわかりました。
今回の内容を参考に、出力される音声も注力していただけると嬉しいです。