Amazon Transcribeをちょっとだけ触ってみた

Last updated at 2022-02-17Posted at 2022-02-01

とらんすくらいぶってみました

音声ファイルをテキストにしてくれるアレです。
ちょっと触りたい衝動にかられたのでマネジメントコンソールで試してみました。

ジョブの作成（実行）

ダッシュボードより「Transciption jobs」

ジョブ名と音声ファイルの言語（入力言語）を指定

音声ファイルを置いたS3のオブジェクトを指定

他はデフォルトの状態でジョブ作成（実行）

解析中（In Progress）

完了（Completed）

解析結果

デフォルトでAWS管理のS3に解析結果が出力されるようで、90日間保存されます。自身でS3バケットを指定すればそこに出力されます。

解析結果は、Transcription preview （コンソール）で見ることができます。

そもそも何て言ったの？

えー、キノコです。初めまして。みなさんお元気でしょうか？ではでは です。

程よい感じにあってる！！

結果をダウンロード

こんな感じのjsonファイルがDLされます。

{
  "jobName": "kinoko-test",
  "accountId": "xxxxxxxx",
  "results": {
    "transcripts": [
      { "transcript": "えきのこです初めまして皆さんお元気でしょうかではあれば" }
    ],
    "items": [
      {
        "start_time": "0.72",
        "end_time": "1.17",
        "alternatives": [{ "confidence": "0.7244", "content": "え" }],
        "type": "pronunciation"
      },
      {
        "start_time": "1.43",
        "end_time": "1.81",
        "alternatives": [{ "confidence": "0.2896", "content": "きのこ" }],
        "type": "pronunciation"
      },
      {
        "start_time": "1.81",
        "end_time": "2.26",
        "alternatives": [{ "confidence": "1.0", "content": "です" }],
        "type": "pronunciation"
      },
      {
        "start_time": "2.62",
        "end_time": "2.97",
        "alternatives": [{ "confidence": "0.8688", "content": "初め" }],
        "type": "pronunciation"
      },
      {
        "start_time": "2.97",
        "end_time": "3.43",
        "alternatives": [{ "confidence": "0.868", "content": "まして" }],
        "type": "pronunciation"
      },
      {
        "start_time": "4.11",
        "end_time": "4.53",
        "alternatives": [{ "confidence": "0.9554", "content": "皆さん" }],
        "type": "pronunciation"
      },
      {
        "start_time": "4.54",
        "end_time": "4.6",
        "alternatives": [{ "confidence": "0.9965", "content": "お" }],
        "type": "pronunciation"
      },
      {
        "start_time": "4.6",
        "end_time": "4.94",
        "alternatives": [{ "confidence": "1.0", "content": "元気" }],
        "type": "pronunciation"
      },
      {
        "start_time": "4.94",
        "end_time": "5.25",
        "alternatives": [{ "confidence": "1.0", "content": "でしょ" }],
        "type": "pronunciation"
      },
      {
        "start_time": "5.26",
        "end_time": "5.29",
        "alternatives": [{ "confidence": "0.9974", "content": "う" }],
        "type": "pronunciation"
      },
      {
        "start_time": "5.3",
        "end_time": "5.67",
        "alternatives": [{ "confidence": "1.0", "content": "か" }],
        "type": "pronunciation"
      },
      {
        "start_time": "6.24",
        "end_time": "6.36",
        "alternatives": [{ "confidence": "0.905", "content": "で" }],
        "type": "pronunciation"
      },
      {
        "start_time": "6.36",
        "end_time": "6.45",
        "alternatives": [{ "confidence": "0.903", "content": "は" }],
        "type": "pronunciation"
      },
      {
        "start_time": "6.45",
        "end_time": "6.55",
        "alternatives": [{ "confidence": "0.6174", "content": "あれ" }],
        "type": "pronunciation"
      },
      {
        "start_time": "6.55",
        "end_time": "6.78",
        "alternatives": [{ "confidence": "0.6241", "content": "ば" }],
        "type": "pronunciation"
      }
    ]
  },
  "status": "COMPLETED"
}

40分ほどの音源をインプット

40分ほどの音源を解析させてみたところ、正確に計測してなかったけど5分もかからなかった気がします。
ただ、句読点などが一切なかったので読むに耐えない・・・笑
12,418文字がずらずらと羅列された結果はなかなか壮大。ただ、精度は思った以上と、色々使えそうだなと思いました。

きっとオプション設定や他の処理をかけることで、文節区切りなどもできるのかと思うのでもう少し触ってみます。できます？

料金体系

階層	ボリューム (分/月)	スタンダードバッチ文字起こし (USD/分)*
T1	最初の 250,000 分	0.02400USD
T2	次の 750,000 分	0.01500USD
T3	1,000,000 分超え	0.01080USD

40分の場合、T1階層なので0.024(USD)x40=0.96USD といったところでしょうか。

参考

上記を参考にLambdaから叩いてみたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up