インタビュー動画の記事作成をする機会があり、動画を再生して、少し戻って。。。というのが面倒だったので、音声をなんとか一発で文字起こしできないかを調べていたところ、いくつかツールが存在していることを知りました。
その中でも普段から馴染みのあるAWSの「Amazon Transcribe」を試しに使ってみたので、その感想をメモとして残します。
Amazon Transcribeとは
音声ファイルの文字起こしをしてくれるAWSのサービスです。
Amazon Transcribe は、自動音声認識 (ASR、automatic speech recognition) と呼ばれる深層学習プロセスを使って迅速かつ高精度に音声をテキストに変換します。
引用:https://aws.amazon.com/jp/transcribe/
料金も15秒の音声の文字起こしで0.006 USDで、1時間でも1.44 USDととてもリーズナブルです。他の文字起こしサービスでは1時間で2000円を超えることも多いので、値段設定はさすがAWSですね。登録後12ヶ月は1ヶ月あたり60分の無料利用枠もあるので、気になる方は是非試してみてください。
使ってみた
使い方もとても簡単です。
-
s3にファイルをアップロードする
-
Amazon Transcribeでjobを作成する
以上です。
操作手順等は以下の記事を参考にさせていただきました。ありがとうございます。
https://qiita.com/shimizu-nowhere/items/2508f2e87daee8cb1083
https://qiita.com/kooohei/items/2580addd6c1bbc8f1c34
以下が出力結果のサンプルです。内容は編集しています。
単語ごとに出力されて、それぞれの精度まで数値で出力されます。
{
"jobName": "amazon_transcribe",
"accountId": "hogehogehoge",
"results": {
"transcripts": [
{
"transcript": "hoge fuga piyp"
}
],
"items": [
{
"start_time": "0.04",
"end_time": "0.41",
"alternatives": [
{
"confidence": "0.9699",
"content": "hoge"
}
],
"type": "pronunciation"
},
{
"start_time": "0.42",
"end_time": "0.79",
"alternatives": [
{
"confidence": "0.5512",
"content": "fuga"
}
],
"type": "pronunciation"
},
{
"start_time": "0.79",
"end_time": "1.45",
"alternatives": [
{
"confidence": "0.9987",
"content": "piyo"
}
],
"type": "pronunciation"
}
]
},
"status": "COMPLETED"
}
感想
以下使ってみての感想です。
精度に関しては予想よりもよかった
英語ならまだしも日本語の文字起こしは難しいんじゃないかと思っていて、正直あまり期待していませんでした。ところが、実際に使ってみると単語単位では予想以上に高精度で文字起こしができており、文章単位でもところによっては精度が高かったです。
文字起こしまでの操作が簡単
AWSを少しでも触ったことのある人ならば、文字起こし完了までのハードルはとても低いと思います。
対話の音声データでは利用ハードルがグッと上がる
今回使用したデータはインタビューの音声データで、登場人物が二人いました。そのため、文章や単語の文字起こしができても、どちらが発言したのかはインタビューの流れから確認する必要があります。また、同時に発言しているシーンでは精度が極端に低下していました。利用シーンは考える必要がありそうです。
終わりに
実際にAmazon Transcribeを使ってみると、想像以上に精度は高かったです。ただ、所々でミスがあったりするので、あくまでサポート的な役割でこのサービスは使ってみるのがいいと思いました。AWSのアップデート速度は凄まじいので、日本語の識別精度もどんどん良くなっていくと思います。
参考
https://aws.amazon.com/jp/transcribe/
https://qiita.com/shimizu-nowhere/items/2508f2e87daee8cb1083
https://qiita.com/kooohei/items/2580addd6c1bbc8f1c34