More than 1 year has passed since last update.

[Google Cloud Speech-to-Text API(V2)] Javaで音声をテキストに変換する

Posted at 2024-05-14

Cloud Speech-to-Text API V2(Java)を使用して、
音声をテキストに変換する方法についてご紹介します。

APIを利用する環境の準備から始める場合や、コードを実行する際は、
⧉[Google Cloud Speech-to-Text API(V2)] JavaでSpeech-to-Text APIを使ってみる
を参照ください。

No		目次
1		音声を変換(同期)
	1	スコープ
	2	実行
	3	レスポンスの内容
2		長い音声を変換(非同期)
	1	スコープ
	2	実行
	3	レスポンスの内容

1. 音声を変換(同期)

音声をテキストに変換します。
変換したテキストはすぐ(同期的)に取得できます。
変換に時間がかかるような長い音声は、2. 音声を変換(非同期)の方を利用ください。

音声入力はローカルファイルからと、GoogleCloudStorage上のファイルからの入力があります。

1.1. スコープ

OAuth2.0でこのAPIを実行するには、以下のスコープを指定してください。
サービスアカウントで実行する場合はスコープの指定は不要です。

https://www.googleapis.com/auth/cloud-platform

1.2. 実行

認識ツールIDでは、"_"(デフォルト(未使用))を指定しています。
サンプルではローカルにある音声ファイルを変換しています。

public static void main(String[] args) throws Exception{
    try(SpeechClient client = getSpeechClient()){
        byte[] data = Files.readAllBytes(Paths.get("音声ファイルのパス"));
        ByteString audioBytes = ByteString.copyFrom(data);
        
        RecognitionConfig.Builder config = RecognitionConfig.newBuilder();
        config.addLanguageCodes("ja-JP");
        config.setModel("short");
        AutoDetectDecodingConfig.Builder decoding = AutoDetectDecodingConfig.newBuilder();
        config.setAutoDecodingConfig(decoding.build());
        
        RecognizeRequest.Builder builder = RecognizeRequest.newBuilder();
        builder.setConfig(config.build());
        builder.setContent(audioBytes);
        builder.setRecognizer(String.format("projects/%s/locations/%s/recognizers/%s", 
                    "プロジェクトID","ロケーションID","_"));
        
        RecognizeResponse response = client.recognize(builder.build());
        List<SpeechRecognitionResult> results = response.getResultsList();
        for (SpeechRecognitionResult result : results) {
            if (result.getAlternativesCount() > 0) {
                SpeechRecognitionAlternative alternative = result.getAlternativesList().get(0);
                System.out.printf("Transcription: %s%n", alternative.getTranscript());
            }
        }
    }
}

1.2.1. HTTPリクエスト

POST:　https://speech.googleapis.com/v2/projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認識ツールID}:recognize
が実行されます。

1.2.2. クエリパラメータ

クエリパラメータはありません。

1.2.3. リクエストボディ

RecognizeRequest.Builderのsetメソッドにより、リクエストボディを追加できます。
build()メソッドでRecognizeRequestインスタンスを取得し、
recognize()に渡します。

メソッド	引数	説明
setRecognizer	String	【必須】リソース名形式："projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認識ツールID}
setConfig	⧉ RecognitionConfig	リクエストに使用するデフォルトの構成
setConfigMask	FieldMask	この認識要求中に認識エンジンのconfig値をオーバーライドするフィールドのリスト
setContent	ByteString	オーディオデータ(バイト)
setUri	String	Google Cloud Storage上のオーディオデータのURI 形式："gs://{bucket_name}/{object_name}"

1.3. レスポンスの内容

RecognizeResponse

メソッド	戻り値	説明
getResultsList	List<SpeechRecognitionResult>	音声の連続部分に対応する文字起こし結果の連続リスト
getMetadata	RecognitionResponseMetadata	認識に関するメタデータ

SpeechRecognitionResult

メソッド	戻り値	説明
getAlternativesList	List<SpeechRecognitionAlternative	認識仮説
getChannelTag	int	マルチチャネルオーディオの認識結果に対応するチャネル番号
getResultEndOffset	Duration	オーディオの開始に対する終了時間オフセット
getLanguageCode	String	BCP-47言語タグ

SpeechRecognitionAlternative

メソッド	戻り値	説明
getTranscript	String	ユーザーが話した単語を表すトランスクリプトテキスト
getConfidence	float	信頼度推定値(0.0～1.0)
getWordsList	WordInfo	認識された各単語の単語固有の情報のリスト

WordInfo

メソッド	戻り値	説明
getStartOffset	Duration	音声の先頭を基準とした話し言葉の先頭に対応する時間オフセット
getEndOffset	Duration	音声の先頭からの相対的な時間オフセット
getWord	String	情報セットに対応する単語
getConfidence	float	信頼度推定値(0.0～1.0)
getSpeakerLabel	String	スピーカーのラベル

RecognitionResponseMetadata

メソッド	戻り値	説明
getTotalBilledDuration	Duration	音声秒数の課金

2. 長い音声を変換(非同期)

非同期で長い音声をテキストに変換します。

変換されたテキストファイルはCloud Storageに出力されます。
変換される音声ファイルの形式は、LINEAR16のみ対応されています。

出力するGoogle Cloud Storageは、APIからアクセスできるように
保存先のプロジェクトにIAM権限の設定を忘れないでください。

2.1. スコープ

OAuth2.0でこのAPIを実行するには、以下のスコープを指定してください。
サービスアカウントで実行する場合はスコープの指定は不要です。

https://www.googleapis.com/auth/cloud-platform

2.2. 実行

認識ツールIDでは、"_"(デフォルト(未使用))を指定しています。

public static void main(String[] args) throws Exception{
    try(SpeechClient client = getSpeechClient()){
        RecognitionConfig.Builder config = RecognitionConfig.newBuilder();
        config.addLanguageCodes("ja-JP");
        config.setModel("short");

        AutoDetectDecodingConfig.Builder decoding = AutoDetectDecodingConfig.newBuilder();
        config.setAutoDecodingConfig(decoding.build());

        BatchRecognizeFileMetadata.Builder file = BatchRecognizeFileMetadata.newBuilder();
        file.setUri("gs://{bucket_name}/{object_name}");

        BatchRecognizeRequest.Builder builder = BatchRecognizeRequest.newBuilder();
        builder.setConfig(config.build());
        builder.addFiles(file.build());
        builder.setRecognizer(String.format(
                    "projects/%s/locations/%s/recognizers/%s", 
                    "プロジェクトID","ロケーションID","_"));
        
        OperationFuture<BatchRecognizeResponse,OperationMetadata> response = client.batchRecognizeAsync(builder.build());
        
        //非同期なので終了するまで待ち
        while (!response.isDone()) {
            System.out.println("Waiting for response...");
            Thread.sleep(10000);
        }

        for(Map.Entry<String, BatchRecognizeFileResult> entry : response.get().getResultsMap().entrySet()) {
            System.out.println(entry.getKey()+" : "+entry.getValue());
        }
    }
}

2.2.1. HTTPリクエスト

POST:　https://speech.googleapis.com/v2/projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認証ツールID}:batchRecognize
が実行されます。

2.2.2. クエリパラメータ

クエリパラメータはありません。

2.2.3. リクエストボディ

BatchRecognizeRequest.Builderのsetメソッドにより、リクエストボディを追加できます。
build()メソッドでBatchRecognizeRequestインスタンスを取得し、
batchRecognizeAsync()に渡します。

メソッド	引数	説明
setRecognizer	String	【必須】リソース名形式："projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認識ツールID}
setConfig	⧉ RecognitionConfig	自動音声認識に使用する機能とオーディオメタデータ
setConfigMask	FieldMask	この認識要求中に認識エンジンのconfig値をオーバーライドするフィールドのリスト
addAllFiles	Iterable<BatchRecognizeFileMetadata>	ASRのファイルメタデータを含むオーディオファイル(最大5)
setRecognitionOutputConfig	RecognitionOutputConfig	各ファイルのトランスクリプトを出力する場所の構成オプション
setProcessingStrategy	ProcessingStrategy(enum)	このリクエストに使用する処理戦略

BatchRecognizeFileMetadata

メソッド	引数	説明
setConfig	⧉ RecognitionConfig	自動音声認識に使用する機能とオーディオメタデータ
setConfigMask	FieldMask	この認識要求中に認識エンジンのconfig値をオーバーライドするフィールドのリスト
setUri	string	音声ファイルのクラウドストレージURI 形式："gs://{bucket_name}/{object_name}"

RecognitionOutputConfig

メソッド	引数	説明
setOutputFormatConfig	OutputFormatConfig	結果の形式の構成
setGcsOutputConfig	GcsOutputConfig	結果の出力先(Google Cloud Storage URI)
setInlineResponseConfig	InlineOutputConfig	処理完了時の認識結果の出力有無

OutputFormatConfig

メソッド	引数	説明
setNative	NativeOutputFileFormatConfig	ネイティブ出力形式の構成
setVtt	VttOutputFileFormatConfig	VTT出力フォーマットの設定
setSrt	SrtOutputFileFormatConfig	SRT出力フォーマットの設定

GcsOutputConfig

メソッド	引数	説明
setUri	String	認識結果が書き込まれるCloudStorageURI

NativeOutputFileFormatConfig

フィールドはありません。

VttOutputFileFormatConfig

フィールドはありません。

SrtOutputFileFormatConfig

フィールドはありません。

InlineOutputConfig

フィールドはありません。

ProcessingStrategy

定義値	内容
PROCESSING_STRATEGY_UNSPECIFIED	処理戦略のデフォルト値
DYNAMIC_BATCHING	使用率が低い期間にリクエストが処理され、価格が割引される

2.3. レスポンスの内容

OperationFuture<BatchRecognizeResponse,OperationMetadata>

メソッド	戻り値	説明
getName	String	サーバーによって割り当てられた名前形式："projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認証ツールID}"
isDone	boolean	操作がまだ進行中であるか
getPollingFuture	RetryingFuture<OperationSnapshot>	失敗またはキャンセルされた場合の操作のエラー結果
get	BatchRecognizeResponse	認識ツールの情報

OperationSnapshot

メソッド	戻り値	説明
getErrorCode	StatusCode	エラーコード
getErrorMessage	String	開発者向けのエラーメッセージ

BatchRecognizeResponse

メソッド	戻り値	説明
getResultsMap	Map<String,BatchRecognizeFileResult>	ファイル名からそのファイルの最終結果マップ
getTotalBilledDuration	Duration	対応するリクエストの音声秒数の課金

BatchRecognizeFileResult

メソッド	戻り値	説明
getError	Status	エラー情報
getMetadata	RecognitionResponseMetadata	認識リクエストと応答に関するメタデータ
getCloudStorageResult	CloudStorageResult	認識結果の出力(Cloud Storage)
getInlineResult	InlineResult	認識結果

Status

メソッド	戻り値	説明
getCode	int	ステータスコード
getMessage	String	開発者向けのエラーメッセージ
getDetailsList	List<Any>	エラーの詳細を伝えるメッセージのリスト

CloudStorageResult

メソッド	戻り値	説明
getUri	String	認識結果が書き込まれるCloudStorageURI
getVttFormatUri	String	認識結果がVTT形式のキャプションとして書き込まれるCloudStorageURI
getSrtFormatUri	String	認識結果がSRT形式のキャプションとして書き込まれるCloudStorageURI

InlineResult

メソッド	戻り値	説明
getTranscript	BatchRecognizeResults	音声ファイルのトランスクリプト
getVttCaptions	String	VTT形式のキャプションとしての音声ファイルのトランスクリプト
getSrtCaptions	String	SRT形式のキャプションとしての音声ファイルのトランスクリプト

BatchRecognizeResults

メソッド	戻り値	説明
getResultsList	List<SpeechRecognitionResult>	音声の連続部分に対応する文字起こし結果の連続リスト
getMetadata	RecognitionResponseMetadata	認識に関するメタデータ

AudioEncoding

定義値	内容
AUDIO_ENCODING_UNSPECIFIED	デフォルト値
LINEAR16	ヘッダーなしの16ビット符号付きリトルエンディアンPCMサンプル
MULAW	ヘッダーなしの8ビット圧縮されたmulawサンプル
ALAW	ヘッダーなしの8ビット圧縮されたalawサンプル

おしまい。。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up