More than 1 year has passed since last update.

Amazon Transcribeを試してみる

Posted at 2023-01-29

Amazon Transcribeとは

音声を文字起こししてくれるツール。
コンソール画面でマイクをONにして音声入力を始めるか、音声ファイルをアップロードする。

今まで議事録の文字起こしに Google Document の音声入力機能とか使って「だめだこりゃ」と諦めてきた。
音声アップロードしたら文字起こししてくれるツールないかな、むしろなんで無いんだ…ぐらいに思っていた。
まさかAWSにあったなんて…

ということで、簡単に使い勝手や精度を試してみる。
特に記載のない限り、以下に引用する画像はAWS公式サイトか、AWSコンソールから。

いろんな言語に対応している（実際のコンソール画面では、画像より多くの言語に対応）。

翻訳精度を改善するための設定が色々ある。

たくさんあるのでちょっと時間が足りず試しきれない。

Vocabulary filtering は、フィルタリングに指定したキーワードが文字起こし中に現れたら削除するか、「***」のように変換される機能。

Vocabulary filtersのページにいって、 Create vocabulary filterを押す。

フィルタリングするキーワードのソースはテキストファイルをアップするか、S3から引っ張るかする。

今回はフィルタリングのキーワードを入れたテキストファイルを直接アップしてみよう。

Macを使ってるので、Terminalからサンプルのファイルをつくる。
どういうフォーマットでテキストファイル作ったらいいかわからなかったので以下の動画を参考にした。
https://www.youtube.com/watch?v=TcpSqbr0FnI

下のような感じでテキストベタ打ちでいいらしい。ファイルの形式は txt か csv。

わたし
あなた

Mac使って何年経ってるのかわからないけど未だにGUIベースでテキストファイルの作り方がわからない。
とりあえずTerminalからechoでテキストファイルをつくる。「わたし」という言葉をフィルタリング対象にしてみる。

アップロードする。拡張子がついてないと、エラーで怒られる。

ちゃんとcsvつけたやつをアップして登録した。

Transcribeのページにいって、翻訳のオプションから登録したフィルターを設定する。
フィルタ登録時の言語の設定にあわせてないとフィルタが出てこないので注意。

例えば違う言語（English (en-US））を選んだら、フィルタが出てこない

適用したフィルタに引っかかったら「***」するか、消すか、予めタグづけしといたキーワードに置き換えるかなど選べるらしい。

タグ付けのサンプルは公式ドキュメントに記載あり。今回は試さない。

喋ってみる。

漢字で認識してだめだった…

漢字の「私」を登録し直して再挑戦。

うまくいった。

毎月最初の60分は無料。15秒未満は15秒としてカウント。

公式サイトいわく、最初の25万分(4,166時間）は $0.024/分らしい。円にすると 3.12 円/分（記事作成時）。
仕事上、120 分ぐらいの議事録を作ることがある。Amazon Transcribeを使えば 375 円で文字起こししてくれる。
安すぎて吹き出す。

カスタム言語（CLM)を使ったCLM Batchと CLM Streamingは料金体系がちょっと違う（もっと安い）。
いや、CLMってなんじゃい…ってのは公式サイトの告知に記載あり。

Amazon Transcribeは各所でのレビューを見ると文字起こしとして十分な性能があると思う。
音声ファイルのアップロードでも行ってくれるらしいので、リアルタイムである必要はない。
今後はプライベートでも使ってみたいと思う。