2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Amazon Transcribeを使って音声を文字に起こしてみた!

Posted at

1.はじめに

私がAmazon Transcribeに興味を持ったのは、議事録をもっと楽に作成できるシステムをつくりたいと感じたことからでした。
現時点での最終的な目標は、音声・動画データをテキストに起こし、そのテキストデータをAIに要約してもらい議事録を作成することです。
それを実現するためのサービスとして、音声を文字に変換できるAmazon Transcribeの存在を知りました。
なので今回は、Amazon Transcribeがどのようなサービスなのかを実際に使ってみた記録として記事を書いていこうと思います。

2.Amazon Transcribeについて

(上記サイト引用)

概要

フルマネージド型の自動音声認識 (ASR) サービスで、デベロッパーが音声の文字起こし機能をプリケーションに簡単に追加できるようにします。

特徴

  • リアルタイムまたは録音された音声を瞬時にテキスト変換可能
  • 様々な音響条件を考慮した高精度な文字起こし
  • 100以上の言語に対応
  • 自動句読点、カスタム語彙、自動言語識別、話者ダイアライゼーション、単語レベルの信頼スコア、語彙フィルターなど高度な機能

3使ってみた

今回は以下のサイトの音声を使用せていただきました。
この音声はAIで生成されたものであるため、実際の音声とは結果が異なるかもしれませんが、それはまた別の機会に試したいと思います。

1.S3バケット作成・音声アップロード

音声をAmazon Transcribeに読み込ませるためには、音声をAWS上にアップロードする必要があります。その音声をアップロードする場所としてS3バケットを作成します。バケット名を「transcribe-train-20250107」とし、後はデフォルトのまま作成しました。

スクリーンショット 2025-01-08 133953.png

そこに「サンプル会議音声1.wav」という音声ファイルをアップロードしました。
スクリーンショット 2025-01-08 134531.png

2.トランスクリプションジョブ作成

次にコンソールからAmazon Transcribeを開き、左のメニューから「トランスクリプションジョブ」を選択し、「ジョブを作成」をクリックします。
スクリーンショット 2025-01-08 154719.png

次にジョブの設定を行います。
任意の名前を設定し、言語で日本語を選択します。
スクリーンショット 2025-01-08 155917.png

次に文字に起こしたい音声を選択します。
入力データでBrowse S3ボタンから先ほど作成したバケットに置かれている音声ファイルを選択します。
スクリーンショット 2025-01-08 162123.png
あとはデフォルトのまま次へ進み、ジョブを作成してみます。

スクリーンショット 2025-01-08 162922.png

スクリーンショット 2025-01-08 163035.png
ステータスは1分ほどで進行中から完了になりました。

3.結果確認

ジョブをクリックし出力を確認してみます。
音声ファイルで聞いた内容がテキストとして出力されていることを確認できました!
ただ、ところどころ間違っている箇所はあります。
AIの音声をAIが聞き取ることは容易であると考えていましたが、浅はかでした。
スクリーンショット 2025-01-08 163801.png

さらに、文字をクリックすると単語の信頼度までわかります。
スクリーンショット 2025-01-08 165616.png

間違っている単語はしっかり信頼度が低くなっていました。
音声だと「完了」と言っているところを「管理を」と変換してしまっています。
確かに「管理を」と言われればそう聞こえます。
スクリーンショット 2025-01-08 170019.png

ですが、その直後にある「完了」は正しく変換できていました。
スクリーンショット 2025-01-08 171634.png

AI音声なのでどちらの「完了」もまったく同じ話し方だったにも関わらず、なぜ異なるのでしょうか?
このことから、AIも人間と同じように聞き取れなかったところを前後の文脈や単語で補完して変換しているんだと感じました。

4.いろいろな機能も試してみた

  • 字幕
    スクリーンショット 2025-01-08 173106.png
    スクリーンショット 2025-01-08 173811.png
    「出力データの設定」で「字幕ファイルの出力形式」にチェックを入れると、タイムスタンプとテキストが表示されました。
     
  • 音声識別
    「音声設定」で「音声識別」をオンにし、話者のパーティショニングにチェックを入れます。(今回の音声は1チャネルであったため「チャネル識別」は適用しても意味がありませんでした)
    話者の最大数は任意のような書き方ですが、設定しないとジョブを作成することができませんでした。人数を数えるのは面倒だったのでだいたいで6と設定しました。
    スクリーンショット 2025-01-08 175103.png
    スクリーンショット 2025-01-08 175617.png
    話者を自動で識別してくれました。
    話者0~話者4まで登場していたので、5人であったことがわかりました。
     
  • 代替の結果
    この機能を有効にしていない状態では、信頼度が最も高い結果が出力されています。
    有効にすると信頼度の低いバージョンも代替案として出力されるみたいです。
    スクリーンショット 2025-01-09 102034.png
    スクリーンショット 2025-01-09 104258.png

が、しかし、出力結果は今まで通り1つで代替の結果を確認することができませんでした。
どこからか確認する方法があるのか、音声次第では出力されないのか今後調査が必要です。

5.まとめ

今回、Amazon Transcribeを何も知らない状態から使ってみましたが、とても簡単な操作でしかもあっという間にテキストが出力されることに感動しました!
今はAmazon Transcribe単体でしか触っていませんが、これから他のサービスと組み合わせて、もっと簡単に、気軽に文字起こしができるアプリケーションを作成したいです!

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?