はじめに
下記の記事を読んだところ、日本語に対応した文字おこしサービス Amazon Transcribe がすごいらしいので試してみた。
Amazon Transcribe:破壊的な文字起こしのスピードと価格。 60分の音声だと150円で、20分もあれば完了。日本語にも対応。
https://note.com/sangmin/n/nf404e9945f48
サービスページを見てみると
- 複数話者の認識
- カスタム語彙
- 語彙フィルタリング
- 文字起こしのストリーミング
- 120分の音声ファイルで、約2.88USD(300円くらい)
なかなかすごい。既存のインストール型文字起こしソフト(AmiVoiceやドラゴンスピーチ)も真っ青だ。
試してみる
環境
- Chrome 79
- Windows 10 1909
- 音声ファイルは以下の動画の音声を抽出して使用させてもらった。
- 厚生文教委員会 R2.1.14 17:49-20:06
手順
おおまかな手順は以下
- 文字起こししたい音声ファイルを、S3に保存
- Transcribeでjobを作成し、音声ファイルを指定
- job実行、テキスト出力
事前にS3に音声ファイルを保存し、保存したファイルパスをコピーしておく
アクセス
「Amazon Transcribe の使用を開始する」をクリック
「Create job」をクリック
「Name」に適当な、「Language」に、「Input file location on S3」に<事前にS3に保存した音声ファイルパス>を入力、選択し「next」クリック
optional画面が出るが特に設定せず、「Create」をクリック
「Transcription jobs」画面に戻り、「Status」が「In progress」に変更されていれば文字起こし実施中。「Status」が「Complete」になれば文字起こし完了。job名をクリック
「Download full transcript」をクリックし文字起こしファイルをダウンロード
文字起こしファイルはjsonでダウンロードされるため、適当なメモ帳などのテキスト編集ソフトで開く
実際に使ってみて
- 2時間18分の音声ファイルを約20分で文字起こし完了した。
- S3に音声ファイルをアップロードする時間を合わせても30分以内で完了した。
- 変換精度はまあまあ、手動での修正が必須。
- 変換されたファイルには文字と文字の間に半角スペースが入っていてそのままでは使えない。
例)ガードレール 付き まし て は い て 一つ の 考え として は その いわゆる その 装甲 車両 も 含め た 走行 と それぞれ の 観客 エリア が はっきり 分かれ た 方 が いい って こと も あり ます ので
終わりに
思った以上に日本語の変換精度は高くなく、変換後に人による全文チェックは必須のレベル。
そのため現状ではAmivoiceなど既存の文字起こしソフトウェアに分があるように思える。
が、変換速度と価格は既存ソフトの価値を破壊するレベルであり、変換精度もこれから急に上がっていくと思われるとうかうかしていられない。
もう少しこなれてきた頃にもう一度試してみたい。