1.はじめに
私がAmazon Transcribeに興味を持ったのは、議事録をもっと楽に作成できるシステムをつくりたいと感じたことからでした。
現時点での最終的な目標は、音声・動画データをテキストに起こし、そのテキストデータをAIに要約してもらい議事録を作成することです。
それを実現するためのサービスとして、音声を文字に変換できるAmazon Transcribeの存在を知りました。
なので今回は、Amazon Transcribeがどのようなサービスなのかを実際に使ってみた記録として記事を書いていこうと思います。
2.Amazon Transcribeについて
(上記サイト引用)
概要
フルマネージド型の自動音声認識 (ASR) サービスで、デベロッパーが音声の文字起こし機能をプリケーションに簡単に追加できるようにします。
特徴
- リアルタイムまたは録音された音声を瞬時にテキスト変換可能
- 様々な音響条件を考慮した高精度な文字起こし
- 100以上の言語に対応
- 自動句読点、カスタム語彙、自動言語識別、話者ダイアライゼーション、単語レベルの信頼スコア、語彙フィルターなど高度な機能
3使ってみた
今回は以下のサイトの音声を使用せていただきました。
この音声はAIで生成されたものであるため、実際の音声とは結果が異なるかもしれませんが、それはまた別の機会に試したいと思います。
1.S3バケット作成・音声アップロード
音声をAmazon Transcribeに読み込ませるためには、音声をAWS上にアップロードする必要があります。その音声をアップロードする場所としてS3バケットを作成します。バケット名を「transcribe-train-20250107」とし、後はデフォルトのまま作成しました。
そこに「サンプル会議音声1.wav」という音声ファイルをアップロードしました。
2.トランスクリプションジョブ作成
次にコンソールからAmazon Transcribeを開き、左のメニューから「トランスクリプションジョブ」を選択し、「ジョブを作成」をクリックします。
次にジョブの設定を行います。
任意の名前を設定し、言語で日本語を選択します。
次に文字に起こしたい音声を選択します。
入力データでBrowse S3ボタンから先ほど作成したバケットに置かれている音声ファイルを選択します。
あとはデフォルトのまま次へ進み、ジョブを作成してみます。
3.結果確認
ジョブをクリックし出力を確認してみます。
音声ファイルで聞いた内容がテキストとして出力されていることを確認できました!
ただ、ところどころ間違っている箇所はあります。
AIの音声をAIが聞き取ることは容易であると考えていましたが、浅はかでした。
間違っている単語はしっかり信頼度が低くなっていました。
音声だと「完了」と言っているところを「管理を」と変換してしまっています。
確かに「管理を」と言われればそう聞こえます。
AI音声なのでどちらの「完了」もまったく同じ話し方だったにも関わらず、なぜ異なるのでしょうか?
このことから、AIも人間と同じように聞き取れなかったところを前後の文脈や単語で補完して変換しているんだと感じました。
4.いろいろな機能も試してみた
- 字幕
「出力データの設定」で「字幕ファイルの出力形式」にチェックを入れると、タイムスタンプとテキストが表示されました。
- 音声識別
「音声設定」で「音声識別」をオンにし、話者のパーティショニングにチェックを入れます。(今回の音声は1チャネルであったため「チャネル識別」は適用しても意味がありませんでした)
話者の最大数は任意のような書き方ですが、設定しないとジョブを作成することができませんでした。人数を数えるのは面倒だったのでだいたいで6と設定しました。
話者を自動で識別してくれました。
話者0~話者4まで登場していたので、5人であったことがわかりました。
- 代替の結果
この機能を有効にしていない状態では、信頼度が最も高い結果が出力されています。
有効にすると信頼度の低いバージョンも代替案として出力されるみたいです。
が、しかし、出力結果は今まで通り1つで代替の結果を確認することができませんでした。
どこからか確認する方法があるのか、音声次第では出力されないのか今後調査が必要です。
5.まとめ
今回、Amazon Transcribeを何も知らない状態から使ってみましたが、とても簡単な操作でしかもあっという間にテキストが出力されることに感動しました!
今はAmazon Transcribe単体でしか触っていませんが、これから他のサービスと組み合わせて、もっと簡単に、気軽に文字起こしができるアプリケーションを作成したいです!