Amazon Transcribeとは
音声を文字起こししてくれるツール。
コンソール画面でマイクをONにして音声入力を始めるか、音声ファイルをアップロードする。
調べるきっかけ
今まで議事録の文字起こしに Google Document の音声入力機能とか使って「だめだこりゃ」と諦めてきた。
音声アップロードしたら文字起こししてくれるツールないかな、むしろなんで無いんだ…ぐらいに思っていた。
まさかAWSにあったなんて…
ということで、簡単に使い勝手や精度を試してみる。
特に記載のない限り、以下に引用する画像はAWS公式サイトか、AWSコンソールから。
リアルタイムで音声入力してみる
いろんな言語に対応している(実際のコンソール画面では、画像より多くの言語に対応)。
たくさんあるのでちょっと時間が足りず試しきれない。
Vocabulary filtering を試す
Vocabulary filtering は、フィルタリングに指定したキーワードが文字起こし中に現れたら削除するか、「***」のように変換される機能。
Filterの設定は、別途 Create vocabulary filter のページで行うらしい。
(https://docs.aws.amazon.com/ja_jp/transcribe/latest/dg/vocabulary-filtering.html?icmpid=docs_console_unmapped)。
Vocabulary filtersのページにいって、 Create vocabulary filterを押す。
フィルタリングするキーワードのソースはテキストファイルをアップするか、S3から引っ張るかする。
今回はフィルタリングのキーワードを入れたテキストファイルを直接アップしてみよう。
Macを使ってるので、Terminalからサンプルのファイルをつくる。
どういうフォーマットでテキストファイル作ったらいいかわからなかったので以下の動画を参考にした。
https://www.youtube.com/watch?v=TcpSqbr0FnI
下のような感じでテキストベタ打ちでいいらしい。ファイルの形式は txt か csv。
わたし
あなた
Mac使って何年経ってるのかわからないけど未だにGUIベースでテキストファイルの作り方がわからない。
とりあえずTerminalからechoでテキストファイルをつくる。「わたし」という言葉をフィルタリング対象にしてみる。
Transcribeのページにいって、翻訳のオプションから登録したフィルターを設定する。
フィルタ登録時の言語の設定にあわせてないとフィルタが出てこないので注意。
例えば違う言語(English (en-US))を選んだら、フィルタが出てこない
適用したフィルタに引っかかったら「***」するか、消すか、予めタグづけしといたキーワードに置き換えるかなど選べるらしい。
タグ付けのサンプルは公式ドキュメントに記載あり。今回は試さない。
漢字で認識してだめだった…
うまくいった。
料金
公式サイトいわく、最初の25万分(4,166時間)は $0.024/分 らしい。円にすると 3.12 円/分(記事作成時)。
仕事上、120 分ぐらいの議事録を作ることがある。Amazon Transcribeを使えば 375 円で文字起こししてくれる。
安すぎて吹き出す。
カスタム言語(CLM)を使ったCLM Batchと CLM Streamingは料金体系がちょっと違う(もっと安い)。
いや、CLMってなんじゃい…ってのは公式サイトの告知に記載あり。
おわりに
Amazon Transcribeは各所でのレビューを見ると文字起こしとして十分な性能があると思う。
音声ファイルのアップロードでも行ってくれるらしいので、リアルタイムである必要はない。
今後はプライベートでも使ってみたいと思う。