0

Amazon Transcribeで文字起こしを試してみた

Posted at 2025-05-31

背景・目的

音源はあったが、スクリプトが手元になく、AWSのTranscribeを使用して作成したときのメモ書きです。

概要

Transcribeの概要

以前、下記に概要をまとめました。

実践

バケットの作成

事前に、S3へ音声ファイルをアップしておきます

S3バケットを作成します
音声ファイルをアップします

トランスクリプションジョブ

Transcribeを開きます
ナビゲーションペインで、トランスクリプションジョブをクリックします
特定の言語を入力します
音声データをアップしたS3パスを指定します
出力するバケットを指定します
次へ
ジョブを作成をクリックします
進行中になりました
すぐに完了になります
出力されました

JSONを加工

そのままだと、扱いづらいのでテキストだけ抽出します

ローカルにJSONをダウンロードします

下記のスクリプトを実行します

import json

# TranscribeのJSONファイルを開く
with open('MyTranscribeJob.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# テキストだけを連結して表示
full_text = ' '.join([item['transcript'] for item in data['results']['transcripts']])
print(full_text)

文字列が抽出できました（都合上、ここには載せておりません。）

考察

次回は、OpenAIのwhisperをためしてみようとおもいまｓ

参考

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0