More than 3 years have passed since last update.

Amazon Transcribeで音声の文字おこし

Posted at 2022-06-18

はじめに

文字起こしのチュートリアルを実践しました。

用意されたmp3ファイルをS3に置いて、文字起こしをするようです。

準備されたmp3ファイルをS3に配置してURLをコピーしておきます。

余談ですが、S3は配置したファイルをWeb上で開くことができるようになりました。mp3ファイルもS3上でダウンロードすることなく聞くことができます。

Amazon Transcribeのコンソールを開きます。こちらはまだ日本語化されていないようです。
Languageで英語(English, US (en-US)を選択し、input dataとして先ほどS3に置いたmp3ファイルを指定してそのまま次へ次へとクリックしていくとジョブが開始されます。
in progressと表示されているステータスがCompleteになったところで完了したジョブをクリックして開いてみると、文字起こしされたテキストを参照することができるようになります。サンプル用のファイルを使っただけあってうまく文字起こしされているようです。

文字起こしの結果は単語ごとにその確度が記録されており、json形式でダウンロードすることもできるようになっています。

そうなると気になると、今度は日本語でも使えるのか、ということです。

Windowsのボイスレコーダーというアプリで、青空文庫から「坊ちゃん」の1節を録音します。ファイル名をbochan.m4aとします。
同じようにs3にアップロードしてtranscriptを行います。もちろんLanguageはJapanese, JP (ja-JP)を選択します。
58秒あるファイルですが、45秒でジョブが完了しました。結果は下記の通り。普通の単語の音はだいたい聞き取ってくれましたが、いくつか日本語的な問題は見られました。
1. 令和の現代ではあまり使われない「時分」や「小使い」はさすがに誤変換されている。
2. 同級生のせりふ「弱虫やーい」は「弱虫焼いて」としているものの、確度55.21%と何かが違うような自覚あり。
3. 句読点の位置が変。
題材がよくなかったかもしれないので今度はAWSのサイトから1節を録音して試してみました。やはり、句読点以外はほとんどOKのようです。

会議の議事録作り等で利用するのはまだ難しそうです。利用が増えればAIがどんどん学習して精度も上がるように思いますが、日本ではまだあまり使われていないのかもしれません。