はじめに
AWS は様々な AI サービスを提供しています
そして、それらのサービスはブラウザから簡単に試せるようになっています
サービス | 機能 | お試し記事 | Elixir 実装例 |
---|---|---|---|
Transcribe | 音声の文字起こし(音声認識) | 参照 | 参照 |
Polly | 文書の読み上げ(音声合成) | 参照 | 参照 |
Lex | チャットボット | 参照 | Coming Soon... |
Translate | 翻訳 | 参照 | 参照 |
Rekognition | 画像認識 顔認識 |
参照 参照 |
参照 |
Textract | 画像からの表データ読込 | 参照 | 参照 |
Bedrock | 生成AIによるチャット、画像生成 | 参照 | 参照 |
本記事では AWS の音声合成サービス Polly による文書の読み上げをブラウザから試してみます
Amazon Polly とは
Amazon Polly は AI モデルによってテキスト(文書)を音声として読み上げるサービスです
Amazon Polly の使い途(ユースケース)
Amazon Polly は 2023年11月現在、 75 の言語・国に対応しており、日本語も利用可能です
Amazon Polly は以下のような用途に使用可能です
- 動画やリアルタイム配信への音声追加
- ロボット等への声当て
- Translate と組み合わせ、翻訳した言葉の発声
- Transcribe や Lex と組み合わせて電話への自動応答
Amazon Polly の料金
AWS の料金は基本的に従量課金制です
また、リージョン(サービス提供するサーバーが存在する地域)によって料金が異なります
Polly には「スタンダード」と「ニューラル」の 2 種類のエンジン(読み上げる機能)があり、「ニューラル」の方がより自然な発声に近付きますが、その分高コストになっています
Amazon Polly を東京リージョンで使う場合、以下のように課金されます
- スタンダード: $4.00 / 100 万字
- ニューラル: $16.00 / 100 万字
ただし、 AWS のサービスの多くには無料利用枠が存在します
無料利用枠
Amazon Polly の標準音声の場合、無料利用枠では、音声の最初のリクエストから 12 か月間は 1 か月あたり 500 万文字まで、音声または Speech Marks リクエストを利用できます。Amazon Polly のニューラル音声の場合、無料利用枠では、音声の最初のリクエストから 12 か月間は 1 か月あたり 100 万文字まで、音声または Speech Marks リクエストを利用できます。
無料利用期間中の場合、 スタンダードなら 500 万文字、ニューラルなら 100 万文字までなら無料になるため、本記事で実行する程度の処理であれば無料範囲内に収まります
アカウント作成
Amazon Polly を使うためには、 AWS のアカウント作成が必要です
以下の公式手順に従って、アカウントを作成してください
クレジットカードと電話番号が必要になります
予めご用意ください
ブラウザからの読み上げ実行
Amazon Polly への移動
AWS のマネジメントコンソールにログインすると、以下のような画面が表示されます
この画面から最近使ったサービスなどにアクセスできるようになっています
上メニューにある検索ボックスに pol
と入力してみましょう
サービスの候補として Amazon Polly が表示されます
Amazon Polly をクリックして、サービスページに移動しましょう
以下のような画面が表示されます
テキスト読み上げ機能
左メニューの「テキスト読み上げ機能」をクリックします
以下のような設定がデフォルトで入力されています
- エンジン: スタンダード
- 言語: 日本語
- 音声: Mizuki, 女性
- 入力テキスト: こんにちは、ミズキです。読みたいテキストをここに入力してください
このまま「音声を聴く」をクリックしてみましょう
「入力テキスト」欄の内容を、多少ぎこちない音声が読み上げてくれたと思います
では以下のように変更して「音声を聴く」をクリックしてみましょう
- エンジン: ニューラル
- 音声: Kazuha, 女性 (ニューラルでは Mizuki は選択不可)
- 入力テキスト: こんにちは、和葉です。読みたいテキストをここに入力してください (音声変更時に連動して変更される)
先ほどのミズキよりも少し滑らかに喋る音声が聴こえました
他にもテキストを変更して喋らせてみましょう
レキシコン
左メニュー「レキシコン」から、発声辞書を登録することができます
例えば 「g3t sm4rt」 を 「get smart」 と読ませたい場合など、特定の文字列に対する発声を登録しておくことで、専門用語やスラングなどに対応できます
まとめ
Amazon Polly を使うことで、テキストの読み上げが実行できました
「ニューラル」エンジンを選択することで、より自然な発声にすることも可能です
電話の自動応答や音声チャットボットなど、用途は様々考えられます