LoginSignup
0
0

AWS Amazon Transcribe機能と実装

Posted at

Amazon Transcribeの概要と機能

Amazon Transcribeは、音声ファイルやリアルタイムの音声入力をテキストに変換するためのサービスです。自然言語処理技術を用いて、高い精度で音声をテキストに変換することができます。以下に、Amazon Transcribeの主な機能と使い方を説明します。

主な機能

音声ファイルの変換

Amazon Transcribeは、事前に録音された音声ファイルを変換する機能を提供しています。対応する音声形式は、WAV、MP3、FLAC、OGGなど豊富です。変換後のテキストは、時間情報や音声内の発話者の区別を含む形式で提供されます。

リアルタイムの音声変換

Amazon Transcribeは、リアルタイムの音声入力に対する変換機能も提供しており、ストリーミングデータを即座にテキストに変換できます。例えば、コールセンターの音声通話や音声入力デバイスからの入力に対して、リアルタイムにテキスト化することが可能です。

マルチスピーカーアノテーション

この機能を利用すると、Amazon Transcribeは複数の話者が含まれる音声データを処理し、それぞれの発話者のテキストを個別に出力することができます。これにより、ディスカッションやインタビューのような録音データを効率的に扱うことができます。

サンプルコード

Java

import software.amazon.awssdk.regions.Region;
import software.amazon.awssdk.services.transcribe.TranscribeClient;
import software.amazon.awssdk.services.transcribe.model.*;

public class TranscribeSample {

    public static void main(String[] args) {

        TranscribeClient transcribeClient = TranscribeClient.builder()
                .region(Region.US_EAST_1)
                .build();

        StartTranscriptionJobRequest request = StartTranscriptionJobRequest.builder()
                .languageCode(LanguageCode.EN_US)
                .media(Media.builder()
                        .mediaFileUri("s3://my-bucket/my-audio-file.mp3")
                        .build())
                .outputBucketName("my-bucket")
                .outputKey("transcription.txt")
                .build();

        StartTranscriptionJobResponse response = transcribeClient.startTranscriptionJob(request);

        System.out.println("Transcription job started with ID: " + response.transcriptionJob().transcriptionJobName());
    }
}

Go

package main

import (
	"context"
	"fmt"
	"github.com/aws/aws-sdk-go-v2/config"
	"github.com/aws/aws-sdk-go-v2/service/transcribe"
	"time"
)

func main() {
	cfg, err := config.LoadDefaultConfig(context.TODO())
	if err != nil {
		panic(err)
	}

	client := transcribe.NewFromConfig(cfg)

	input := &transcribe.StartTranscriptionJobInput{
		LanguageCode: transcribe.LanguageCodeEnUs,
		Media: &transcribe.Media{
			MediaFileUri: "s3://my-bucket/my-audio-file.mp3",
		},
		OutputBucketName: "my-bucket",
		OutputKey:        "transcription.txt",
	}

	resp, err := client.StartTranscriptionJob(context.TODO(), input)
	if err != nil {
		panic(err)
	}

	fmt.Println("Transcription job started with ID:", *resp.TranscriptionJob.TranscriptionJobName)

	// ジョブが完了するまで待機する
	for {
		resp, err := client.GetTranscriptionJob(context.TODO(), &transcribe.GetTranscriptionJobInput{
			TranscriptionJobName: resp.TranscriptionJob.TranscriptionJobName,
		})
		if err != nil {
			panic(err)
		}

		if resp.TranscriptionJob.TranscriptionJobStatus == transcribe.TranscriptionJobStatusCompleted {
			fmt.Println("Transcription job completed")
			break
		}

		time.Sleep(10 * time.Second)
	}
}

C#

using System;
using System.IO;
using System.Threading.Tasks;
using Amazon;
using Amazon.TranscribeService;
using Amazon.TranscribeService.Model;

class Program
{
    static async Task Main(string[] args)
    {
        var region = RegionEndpoint.USWest2;
        var client = new AmazonTranscribeServiceClient(region);

        var request = new StartTranscriptionJobRequest
        {
            TranscriptionJobName = "sample-transcription-job",
            LanguageCode = LanguageCode.EnUS,
            Media = new Media
            {
                MediaFileUri = "s3://my-bucket/my-audio-file.mp3"
            },
            OutputBucketName = "my-bucket",
            OutputKey = "transcription.txt"
        };

        var response = await client.StartTranscriptionJobAsync(request);

        Console.WriteLine("Transcription job started with ID: " + response.TranscriptionJob.TranscriptionJobName);
    }
}

以上が、AWSのAmazon Transcribeの概要と機能についての詳細説明と、Java、Go、C#のサンプルコードの記載です。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0