LoginSignup
4
4

More than 1 year has passed since last update.

複数話者文字起こしの練習

Last updated at Posted at 2022-03-08

1. はじめに

Amazon Transcribeでは、(2022年3月現在、最大10人までの)複数話者に対応して文字起こしができる。試しに、使ってみた。

2. 使い方

2.1. 音声ファイルを用意する。

mp4a等(FLAC, MP3, MP4, Ogg, WebM, AMR, そして WAV)のファイルを用意する。なお、AACの場合、どこかでAWSが受け付けるフォーマットに変換する必要がある。

2.2. Amazon Transcribe

mp4a等のファイルをS3に登録する。(アクセス権限は最小で非公開にしておいても、Transcribeは動く。このため、オーナーと同一権限で処理が行われるのではと思われる。)
ここで、話者(Speaker)識別のフラグをオンにして音声認識を実行する必要がある。デフォルトはチャンネル別なので、フラグを変更する必要がある。そして、音声認識結果のjsonファイル(asrOutput.json)を作成する

2.3. jsonからテキストに変換する。

上記のファイルだと、json書式で見ずらいのでテキストに変換する。以下のコマンドで変換する。なお、スクリプト本体は参考資料のgithubを参考のこと。

git clone https://github.com/trhr/aws-transcribe-transcript
cd aws-transcribe-transcript
python3 transcript.py asrOutput.json # output goes to asrOutput.json.txt

出力は、上の場合(拡張子に.txtが追加され)asrOutput.json.txtが出力される。出力例としては以下のような感じである。[0:17:35]が開始時刻からの時分秒である。spk_0/spk_2が話者に相当する。

[0:17:35] spk_2: ま 一つ 提案 という か 質問 さ せ て いただけれ ば と

[0:17:39] spk_0: 思い ます ありがとう ござい ます それでは

A. 参考資料

A.1. 使い方の例(ほかのWeb頁)

A.2. 公式資料や使ったスクリプト

4
4
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4