More than 5 years have passed since last update.

日本語に対応した文字起こしサービス Amazon Transcribe がすごいらしいので試してみた

Posted at 2020-01-20

はじめに

下記の記事を読んだところ、日本語に対応した文字おこしサービス Amazon Transcribe がすごいらしいので試してみた。

Amazon Transcribe：破壊的な文字起こしのスピードと価格。 60分の音声だと150円で、20分もあれば完了。日本語にも対応。
https://note.com/sangmin/n/nf404e9945f48

サービスページを見てみると

複数話者の認識
カスタム語彙
語彙フィルタリング
文字起こしのストリーミング
120分の音声ファイルで、約2.88USD（300円くらい）

なかなかすごい。既存のインストール型文字起こしソフト（AmiVoiceやドラゴンスピーチ）も真っ青だ。

試してみる

環境

Chrome 79
Windows 10 1909
音声ファイルは以下の動画の音声を抽出して使用させてもらった。
厚生文教委員会 R2.1.14 17:49-20:06

手順

おおまかな手順は以下

文字起こししたい音声ファイルを、S3に保存
Transcribeでjobを作成し、音声ファイルを指定
job実行、テキスト出力

事前にS3に音声ファイルを保存し、保存したファイルパスをコピーしておく

アクセス

Amazon Transcribe

「Amazon Transcribe の使用を開始する」をクリック

「Create job」をクリック

「Name」に適当な、「Language」に、「Input file location on S3」に<事前にS3に保存した音声ファイルパス>を入力、選択し「next」クリック

optional画面が出るが特に設定せず、「Create」をクリック

「Transcription jobs」画面に戻り、「Status」が「In progress」に変更されていれば文字起こし実施中。「Status」が「Complete」になれば文字起こし完了。job名をクリック

「Download full transcript」をクリックし文字起こしファイルをダウンロード

文字起こしファイルはjsonでダウンロードされるため、適当なメモ帳などのテキスト編集ソフトで開く

実際に使ってみて

2時間18分の音声ファイルを約20分で文字起こし完了した。
S3に音声ファイルをアップロードする時間を合わせても30分以内で完了した。
変換精度はまあまあ、手動での修正が必須。
変換されたファイルには文字と文字の間に半角スペースが入っていてそのままでは使えない。
例）ガードレール付きましてはいて一つの考えとしてはそのいわゆるその装甲車両も含めた走行とそれぞれの観客エリアがはっきり分かれた方がいいってこともありますので

終わりに

思った以上に日本語の変換精度は高くなく、変換後に人による全文チェックは必須のレベル。
そのため現状ではAmivoiceなど既存の文字起こしソフトウェアに分があるように思える。
が、変換速度と価格は既存ソフトの価値を破壊するレベルであり、変換精度もこれから急に上がっていくと思われるとうかうかしていられない。
もう少しこなれてきた頃にもう一度試してみたい。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up