AWS Transcribe を利用して動画から音声のテキストを抽出する

Last updated at 2021-12-18Posted at 2021-12-18

仕事でAWS Transcribe を利用する機会があったため、メモがてら記述しておきます。

AWS Transcribe とは

AWSが提供するテキスト抽出サービス。動画、音声ファイルから、テキストデータを抽出する。
Google でいう Web Speech API っぽいサービス。

動画をS3バケットにアップロード

Transcribe でプロジェクトを作成し、S3内の動画を選択する。

オプション設定画面。いろいろな抽出条件を設定できる。

複数人が会話に参加している場合 [Audio Identification] - [Speaker Identification] で、人数を指定すると、人数ごとに音声データを分別してテキストデータにする。１人しかいない場合、この設定は使えない。

そのほか、音声認識終了後にS3から動画データを削除する、特定の単語を結果から削除する、などの設定ができる。

設定を全て行い、job をスタートし、コンプリートするとデータの抽出が完了。

実際に抽出したテキストデータが取得できる。

自分は海外ユーザーインタビューの、１時間ほどの動画の文字起こしに使ってみました。
S3に格納する必要はありますが、AWSのコンソールからSaaSサービスのように利用できました。

もちろんAPIも存在するので、ウェブアプリなどのインターフェースを作れば、オリジナルの文字起こしアプリが作成できる。

使い道が多そうなサービスです。