LoginSignup
6
1

Amazon Polly による「文書の読み上げ」をブラウザから試す

Last updated at Posted at 2023-11-29

はじめに

AWS は様々な AI サービスを提供しています

そして、それらのサービスはブラウザから簡単に試せるようになっています

サービス 機能 お試し記事 Elixir 実装例
Transcribe 音声の文字起こし(音声認識) 参照 参照
Polly 文書の読み上げ(音声合成) 参照 参照
Lex チャットボット 参照 Coming Soon...
Translate 翻訳 参照 参照
Rekognition 画像認識
顔認識
参照
参照
参照
Textract 画像からの表データ読込 参照 参照
Bedrock 生成AIによるチャット、画像生成 参照 参照

本記事では AWS の音声合成サービス Polly による文書の読み上げをブラウザから試してみます

Amazon Polly とは

Amazon Polly は AI モデルによってテキスト(文書)を音声として読み上げるサービスです

Amazon Polly の使い途(ユースケース)

Amazon Polly は 2023年11月現在、 75 の言語・国に対応しており、日本語も利用可能です

Amazon Polly は以下のような用途に使用可能です

  • 動画やリアルタイム配信への音声追加
  • ロボット等への声当て
  • Translate と組み合わせ、翻訳した言葉の発声
  • Transcribe や Lex と組み合わせて電話への自動応答

Amazon Polly の料金

AWS の料金は基本的に従量課金制です

また、リージョン(サービス提供するサーバーが存在する地域)によって料金が異なります

Polly には「スタンダード」と「ニューラル」の 2 種類のエンジン(読み上げる機能)があり、「ニューラル」の方がより自然な発声に近付きますが、その分高コストになっています

Amazon Polly を東京リージョンで使う場合、以下のように課金されます

  • スタンダード: $4.00 / 100 万字
  • ニューラル: $16.00 / 100 万字

ただし、 AWS のサービスの多くには無料利用枠が存在します

無料利用枠
Amazon Polly の標準音声の場合、無料利用枠では、音声の最初のリクエストから 12 か月間は 1 か月あたり 500 万文字まで、音声または Speech Marks リクエストを利用できます。Amazon Polly のニューラル音声の場合、無料利用枠では、音声の最初のリクエストから 12 か月間は 1 か月あたり 100 万文字まで、音声または Speech Marks リクエストを利用できます。

無料利用期間中の場合、 スタンダードなら 500 万文字、ニューラルなら 100 万文字までなら無料になるため、本記事で実行する程度の処理であれば無料範囲内に収まります

アカウント作成

Amazon Polly を使うためには、 AWS のアカウント作成が必要です

以下の公式手順に従って、アカウントを作成してください

クレジットカードと電話番号が必要になります

予めご用意ください

ブラウザからの読み上げ実行

Amazon Polly への移動

AWS のマネジメントコンソールにログインすると、以下のような画面が表示されます

スクリーンショット 2023-11-26 9.59.09.png

この画面から最近使ったサービスなどにアクセスできるようになっています

上メニューにある検索ボックスに pol と入力してみましょう

スクリーンショット 2023-11-27 9.55.08.png

サービスの候補として Amazon Polly が表示されます

Amazon Polly をクリックして、サービスページに移動しましょう

以下のような画面が表示されます

スクリーンショット 2023-11-27 9.56.33.png

テキスト読み上げ機能

左メニューの「テキスト読み上げ機能」をクリックします

スクリーンショット 2023-11-27 12.39.36.png

以下のような設定がデフォルトで入力されています

  • エンジン: スタンダード
  • 言語: 日本語
  • 音声: Mizuki, 女性
  • 入力テキスト: こんにちは、ミズキです。読みたいテキストをここに入力してください

このまま「音声を聴く」をクリックしてみましょう

「入力テキスト」欄の内容を、多少ぎこちない音声が読み上げてくれたと思います

では以下のように変更して「音声を聴く」をクリックしてみましょう

  • エンジン: ニューラル
  • 音声: Kazuha, 女性 (ニューラルでは Mizuki は選択不可)
  • 入力テキスト: こんにちは、和葉です。読みたいテキストをここに入力してください (音声変更時に連動して変更される)

先ほどのミズキよりも少し滑らかに喋る音声が聴こえました

他にもテキストを変更して喋らせてみましょう

レキシコン

左メニュー「レキシコン」から、発声辞書を登録することができます

例えば 「g3t sm4rt」 を 「get smart」 と読ませたい場合など、特定の文字列に対する発声を登録しておくことで、専門用語やスラングなどに対応できます

まとめ

Amazon Polly を使うことで、テキストの読み上げが実行できました

「ニューラル」エンジンを選択することで、より自然な発声にすることも可能です

電話の自動応答や音声チャットボットなど、用途は様々考えられます

6
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
1