Qiitaでも人気な https://qiita.com/search?q=+Amazon+Polly
自分なりのメモです。
#料金
料金について
Amazon Polly は従量課金制で、文字あたりの変換のコストが低く、無制限に再生できるため、実質的にどのアプリケーションでも音声の合成を可能にする費用対効果の高い方法です。
AWS 無料利用枠の一環として、Amazon Polly を無料で開始できます。サインアップしていただくと、Amazon Polly を初めて使用するお客様は、最初の 12 か月間は 1 か月あたり最大 500 万文字を無料で利用できます。
最初だけ無料です。
#アカウント
AWSアカウントです。アマゾンプライムとは関係ありません。
#とりあえず話すだけ、プレーンテキスト
入力したものを読み上げてくれます。最初は読み上げただけで感動しました。
##小学生の国語が大事
書いている文章と発音されたときの印象がちがうので、普段からの国語力が大事だと痛感する。
「、」区切りとして発音も途切れます。
「。」発音の終わりとして「、」よりも長めに音が途切れている印象です。
「【」いろんな括弧です。括弧でくくられた文字列を特定の単語として認識しているようで、音の区切りもあります。
#SSML
ミカンのサイズじゃない。マークアップ言語でいろいろと加工ができます。
音声合成マークアップ言語(SSML)のリファレンス
##1行の終わり
おなじようなことができるけど、微妙に違うっぽい。
<p>ああ</p>
いい。
<break time="1s" />
スライドごとに文章を作成していたので、文章の最後に「<break time="1s" />
」を挿入して余韻っぽく使用しました。
##特殊な発音
1/3とかは分数と指定しないといけない。
<say-as interpret-as="fraction">1/3</say-as>
他にもsay-asでいろいろと指定ができる。
##漢字の発音
「工場棟」とかいて「こうじょうとう」と発音してほしいのに「こうじょうむね」みたいに意図しない発音がされることがありました。同音の「塔」で対処しましたが、プレーンテキストだけをみると違和感があるのでマークアップします。
<sub alias="塔">棟</sub>
#特別な語句
自分は使用しませんでしたが、Speechconリファレンス(感嘆詞): 日本語を使うと楽しそうです。
<speak>
speechconの例を示します。
じゃんけんぽん。
<say-as interpret-as="interjection">じゃんけんぽん</say-as>.
</speak>
※川に桃が流れてくるときにしか使わない「どんぶらこ」も含めてほしい。
#作業手順
1.パワポのスライド作成
2.パワポのメモ作成
3.メモをSSMLとしてテキストとして別名で保管
4.Amazon PollyでMP3作成
メモを作成しないといけなかったので、面倒だった。
面倒だったけど、録音場所を確保して誰かに喋らせるよりかは各段に早い&修正も気が楽なので満足しています。