More than 5 years have passed since last update.

Amazon Transcribeを試してみた

Last updated at 2019-11-24Posted at 2019-11-24

twitterで「Amazon Transcribeがリリースされた」との情報をゲットしたため使ってみた。

Amazon Transcribeとは？

AWSの音声認識のサービス。音声ファイルをS3にアップロードすると、数分で自動で文字起こししてくれるサービス。

音声を録音する。
- iphoneの「ボイスメモ」機能を利用し音声を録音する。
- 音声ファイルをiphoneからPCに転送する。
PCでAWSマネジメントコンソールにログインする。　
- 省略。
録音した音声ファイルをS3にアップロードする。
- バケットを作成する。（もちろん既存の物があればそれでOK。）
- 音声ファイルをバケットにアップロードする。
- アップロード完了したらバケットのバスをコピーしておく。
Amazon Transcribeのジョブを新規作成する。
- マネジメントコンソールのトップページで「Amazon Transcribe」と入力する。
- 当該ページが表示されたら、「Create job」をクリックする。
- 「Job settings」「Input data」の各項目を入力する。
  - 「format(音声ファイルの形式)」に制限あり。mp3、mp4、wav、flacのみ対応。
  - 「Audio sampling rate」は音声ファイルのプロパティで確認可能なので、そこの情報をもとに記入する。※ここ間違うと、文字起こしに失敗する。

　　　　- 「Output Data」は今回すべてデフォルトのままにする。（よくわかんない）
　　　　- 「Create」を押下。

「Status」が「In progress」から「Complete」になるまで待つ。
- 「Status」が「Complete」になったら文字起こしの結果を確認する。
  
  - 今回は音声ファイルも小さかったせいか１分ほどで文字起こし完了。ちゃんと認識されていますね。

議事録作成に応用できないか実験する。
- 職場のがやがやした環境の中で、どのくらいの精度を発揮できるか実験する。
- もちろん、文字起こしされたテキストを構造化し直すタスクは自身でやらないといけないが…）
コールセンター業務に活用できないか考える。
- コールセンター業務で音声データの録音をやってるはず。これを「Amazon Transcribe」で文字起こししして、テキストマイニングかけて、チャットボットの精度向上に役立てるとか
- Amazon Connectと連携できないか。

音楽ファイルでやってみたけど、だめだった笑（あわよくば歌詞をすべて文字起こしして欲しかった）