これは AWS Advent Calendar 2021 の19日目 の記事です。
仕事でAWS Transcribe を利用する機会があったため、メモがてら記述しておきます。
AWS Transcribe とは
AWSが提供するテキスト抽出サービス。動画、音声ファイルから、テキストデータを抽出する。
Google でいう Web Speech API っぽいサービス。
動画から音声を抽出する
今回は、Wikimediaのクリエイティブ・コモンズの動画データを利用してみます。
Transcribe でプロジェクトを作成し、S3内の動画を選択する。
オプション設定画面。いろいろな抽出条件を設定できる。
複数人が会話に参加している場合 [Audio Identification] - [Speaker Identification] で、人数を指定すると、人数ごとに音声データを分別してテキストデータにする。1人しかいない場合、この設定は使えない。
そのほか、音声認識終了後にS3から動画データを削除する、特定の単語を結果から削除する、などの設定ができる。
設定を全て行い、job をスタートし、コンプリートするとデータの抽出が完了。
実際に抽出したテキストデータが取得できる。
実際に利用した感想
自分は海外ユーザーインタビューの、1時間ほどの動画の文字起こしに使ってみました。
S3に格納する必要はありますが、AWSのコンソールからSaaSサービスのように利用できました。
もちろんAPIも存在するので、ウェブアプリなどのインターフェースを作れば、オリジナルの文字起こしアプリが作成できる。
使い道が多そうなサービスです。