AWS公式資料で挑むMLS認定(7)-Amazon Pollyの基本

Last updated at 2022-05-15Posted at 2022-05-14

はじめに

今回は、Amazon AIサービス勉強の第1弾、Amazon Pollyです。

文章をリアルな音声に変換する、テキスト読み上げ(TTS)サービス
- TTS(Text-To-Speech)とは、テキスト(文章)を入力し、望む言語の音声を生成する、テキスト音声合成
- テキスト読み上げ機能により、新しいタイプの音声対応製品を構築できる
深層学習(ディープラーニング)技術を使用し、自然に聞こえるように人間の音声を合成
- 何十種類のリアルな音声を多数の言語でサポート
- サンプル音声の発音はネイティブレベルでした(日本語、英語、中国標準語、韓国語のみ聞いてみた感想)
標準TTS音声に加え、ニューラルテキスト読み上げ(NTTS)音声を提供
- NTTSは、新しい機械学習アプローチにより、音声品質の高度改善を実現
- ニュースナレーションでニュースキャスターの発話スタイルもサポート(すごい)
Amazon Pollyブランド音声で、組織のカスタム音声を作成
- Amazon Pollyチームと連携し、組織専用のNTTS音声を作成

自然な声
- 数十種類言語と自然な男女の音声を豊富に備えている
- 流暢なテキスト読み上げで、高品質の音声出力を提供
音声保存と再配信
- 生成した音声を追加料金なしで無制限に再生可能
- 音声ファイルはMP3、OGCなど標準フォーマットで生成
- クラウドまたはローカルで、アプリやデバイスにてオフライン再生可能
リアルタイムストリーミング
- リアルな声と会話型ユーザーエクスペリエンス配信で、一貫した速いレスポンスタイムを提供
- Amazon Polly APIに文章を送ると、音声がストリームとして返され、直ちに再生可能
音声出力のカスタマイズとコントロール
- 音声を修正し、ニーズに合わせられる
- 辞書とSSMLタグをサポートし、発音/声量/声の高さ/速度など音声の相をコントロール可能
  - SSML(Speech Synthesis Markup Language)は、音声合成マークアップ言語
    - 合成音声の生成用にテキストをマークアップする
低コスト
- 従量課金制
- 文字単位変換による低コスト
- 無制限再生

コンテンツの作成
- 数十種類言語で音声を生成でき、RSSフィード/ウェブサイト/動画などの視聴者向けに音声を届ける
- アーキテクチャ例: 記事を音声に変換し、MP3でダウンロードする
eラーニング
- 音声と同期した下記ビジュアル機能を開発可能
  - 顔のアニメーション
  - カラオケで単語のハイライト
- 文/単語/音の発音関連情報を含むメタデータストリームをリクエスト可能
  - メタデータストリームをオーディオストリームとともに下記合成音声に使用
    - アプリ内でアバターをアニメーション化
    - 発音中のテキストをハイライト(ハイライトまでできる?面白い)
- アーキテクチャ例: 音声再生および発音対象テキストハイライト
テレフォニー
- コンタクトセンターで自然な声で応答可能
- 音声出力をキャッシュ/再生することで、Amazon ConnectなどIVRシステムで音声自動応答可能
  - IVR(Interactive Voice Response)とは、コンピューターによる音声自動応答システム
- Amazon Polly APIを活用し、下記情報をリアルタイムに自動配信可能
  - サービスステータス
  - アカウントや請求書に関する問い合わせ
  - 住所、連絡先情報
- アーキテクチャ例: 電話システムでテキスト読み上げ

Amazon Pollyの機能概要とユースケースを勉強しました。
次回は、技術の側面からAmazon Pollyを深掘りします。
お楽しみに。