1
0

More than 1 year has passed since last update.

AWS Transcribe を利用して動画から音声のテキストを抽出する

Last updated at Posted at 2021-12-18

これは AWS Advent Calendar 2021 の19日目 の記事です。

仕事でAWS Transcribe を利用する機会があったため、メモがてら記述しておきます。

AWS Transcribe とは

AWSが提供するテキスト抽出サービス。動画、音声ファイルから、テキストデータを抽出する。
Google でいう Web Speech API っぽいサービス。

動画から音声を抽出する

今回は、Wikimediaのクリエイティブ・コモンズの動画データを利用してみます。

スクリーンショット 2021-12-18 21.52.38.png

動画をS3バケットにアップロード
S3.jpg

Transcribe でプロジェクトを作成し、S3内の動画を選択する。

スクリーンショット 2021-12-18 22.02.38.png

オプション設定画面。いろいろな抽出条件を設定できる。

複数人が会話に参加している場合 [Audio Identification] - [Speaker Identification] で、人数を指定すると、人数ごとに音声データを分別してテキストデータにする。1人しかいない場合、この設定は使えない。

スクリーンショット 2021-12-18 22.06.50.png

そのほか、音声認識終了後にS3から動画データを削除する、特定の単語を結果から削除する、などの設定ができる。

設定を全て行い、job をスタートし、コンプリートするとデータの抽出が完了。

スクリーンショット 2021-12-18 22.12.36.png

実際に抽出したテキストデータが取得できる。

スクリーンショット 2021-12-18 22.15.15.png

実際に利用した感想

自分は海外ユーザーインタビューの、1時間ほどの動画の文字起こしに使ってみました。
S3に格納する必要はありますが、AWSのコンソールからSaaSサービスのように利用できました。

もちろんAPIも存在するので、ウェブアプリなどのインターフェースを作れば、オリジナルの文字起こしアプリが作成できる。

使い道が多そうなサービスです。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0