[前回] AWS公式資料で挑むMLS認定(6)-Amazon AIサービスの全体像
はじめに
今回は、Amazon AIサービス勉強の第1弾、Amazon Pollyです。
Amazon Pollyとは
- 文章をリアルな音声に変換する、テキスト読み上げ(TTS)サービス
- TTS(Text-To-Speech)とは、テキスト(文章)を入力し、望む言語の音声を生成する、テキスト音声合成
- テキスト読み上げ機能により、新しいタイプの音声対応製品を構築できる
- 深層学習(ディープラーニング)技術を使用し、自然に聞こえるように人間の音声を合成
- 何十種類のリアルな音声を多数の言語でサポート
- サンプル音声の発音はネイティブレベルでした(日本語、英語、中国標準語、韓国語のみ聞いてみた感想)
- 標準TTS音声に加え、ニューラルテキスト読み上げ(NTTS)音声を提供
- NTTSは、新しい機械学習アプローチにより、音声品質の高度改善を実現
- ニュースナレーションでニュースキャスターの発話スタイルもサポート(すごい)
- Amazon Pollyブランド音声で、組織のカスタム音声を作成
- Amazon Pollyチームと連携し、組織専用のNTTS音声を作成
Amazon Pollyのメリット
- 自然な声
- 数十種類言語と自然な男女の音声を豊富に備えている
- 流暢なテキスト読み上げで、高品質の音声出力を提供
- 音声保存と再配信
- 生成した音声を追加料金なしで無制限に再生可能
- 音声ファイルはMP3、OGCなど標準フォーマットで生成
- クラウドまたはローカルで、アプリやデバイスにてオフライン再生可能
- リアルタイムストリーミング
- リアルな声と会話型ユーザーエクスペリエンス配信で、一貫した速いレスポンスタイムを提供
- Amazon Polly APIに文章を送ると、音声がストリームとして返され、直ちに再生可能
- 音声出力のカスタマイズとコントロール
- 音声を修正し、ニーズに合わせられる
- 辞書とSSMLタグをサポートし、発音/声量/声の高さ/速度など
音声の相
をコントロール可能- SSML(Speech Synthesis Markup Language)は、音声合成マークアップ言語
- 合成音声の生成用にテキストをマークアップする
- SSML(Speech Synthesis Markup Language)は、音声合成マークアップ言語
- 低コスト
- 従量課金制
- 文字単位変換による低コスト
- 無制限再生
Amazon Pollyのユースケース
-
コンテンツの作成
-
eラーニング
-
テレフォニー
※ 引用元: Amazon Polly ユースケース
おわりに
Amazon Pollyの機能概要とユースケースを勉強しました。
次回は、技術の側面からAmazon Pollyを深掘りします。
お楽しみに。