More than 1 year has passed since last update.

[Google Cloud Speech-to-Text API(V2)] Javaで認識ツールを作成・更新・削除する

Posted at 2024-05-15

Cloud Speech-to-Text API V2(Java)を使用して、
認識ツールを作成・更新・削除する方法についてご紹介します。

認識ツールとは
認識ツールは構成可能で再利用可能な認識構成です。

頻繁に使用される認識構成を使用して認識ツールを作成すると、
認識リクエストを簡素化し、リクエストのサイズを削減できます。

APIを利用する環境の準備から始める場合や、コードを実行する際は、
⧉[Google Cloud Speech-to-Text API(V2)] JavaでSpeech-to-Text APIを使ってみる
を参照ください。

No		目次
1		認識ツールを作成
	1	スコープ
	2	実行
	3	レスポンスの内容
2		認識ツールを更新
	1	スコープ
	2	実行
	3	レスポンスの内容
3		認識ツールを削除
	1	スコープ
	2	実行
	3	レスポンスの内容

1. 認識ツールを作成

認識ツールを作成します。

1.1. スコープ

OAuth2.0でこのAPIを実行するには、以下のスコープを指定してください。
サービスアカウントで実行する場合はスコープの指定は不要です。

https://www.googleapis.com/auth/cloud-platform

1.2. 実行

public static void main(String[] args) throws Exception{
		try(SpeechClient client = getSpeechClient()){
			RecognitionConfig.Builder config = RecognitionConfig.newBuilder();
			config.setModel("short");
			config.addLanguageCodes("ja-JP");
			
			Recognizer.Builder value = Recognizer.newBuilder();
			value.setDefaultRecognitionConfig(config.build());
			
			CreateRecognizerRequest.Builder builder = CreateRecognizerRequest.newBuilder();
			builder.setParent(String.format(
                       "projects/%s/locations/%s", 
                       "プロジェクトID","ロケーションID"));
			builder.setRecognizerId("認証ツールID");
			builder.setRecognizer(value.build());
			
			OperationFuture<Recognizer,OperationMetadata> response = client.createRecognizerAsync(builder.build());
	        System.out.println(response.getName());

	        Recognizer get = response.get();
	        System.out.println(get);
		}
}

1.2.1. HTTPリクエスト

POST:　https://speech.googleapis.com/v2/projects/{プロジェクトID}/locations/{ロケーションID}/recognizers
が実行されます。

1.2.2. クエリパラメータ

CreateRecognizerRequest.Builderのsetメソッドにより、リクエストボディを追加できます。
build()メソッドでCreateRecognizerRequestインスタンスを取得し、
createRecognizerAsync()に渡します。

メソッド	引数	説明
setParent	String	【必須】リソース名形式："projects/{プロジェクトID}/locations/{ロケーションID}"
setRecognizerId	String	【必須】認証ツールID
setRecognizer	Recognizer	【必須】認識ツールの情報
setValidateOnly	boolean	リクエストを検証して認証ツールをプレビューするが実際には作成しないか

1.2.3. リクエストボディ

Recognizer

メソッド	引数	説明
setDisplayName	String	認証ツールの名前(63文字まで)
setDefaultRecognitionConfig	RecognitionConfig	リクエストに使用するデフォルトの構成

RecognitionConfig

メソッド	引数	説明
setModel	String	【作成時のみ必須】モデル ⧉Speech-to-TextV2でのサポート言語の「モデル」を指定
addLanguageCodesList	String	【作成時のみ必須】変換する言語 ⧉Speech-to-TextV2でのサポート言語の「BCP-47」を指定
setFeatures	RecognitionFeatures	有効にする音声認識機能
setAdaptation	SpeechAdaptation	特定の単語やフレーズに対する認識エンジンの予測を重み付けする音声適応コンテキスト
setTranscriptNormalization	TranscriptNormalization	文字起こしの正規化を使用して文字起こしの一部を選択したフレーズに自動的に置き換えるユニオンフィールド
setAutoDecodingConfig	AutoDetectDecodingConfig(enum)	デコードパラメータを自動的に検出 explicitDecodingConfigの設定がない場合は必須(空のインスタンスを設定)
setExplicitDecodingConfig	ExplicitDecodingConfig	明示的に指定されたデコードパラメータヘッダーレスPCMオーディオ(linear16、mulaw、alaw)の場合は必須

RecognitionFeatures

メソッド	引数	説明
setProfanityFilter	boolean	フィルタリングされた各単語の最初の文字を除くすべての文字をアスタリスクに置き換えるか
setEnableWordTimeOffsets	boolean	一番上の結果には単語のリストと、それらの単語の開始時刻と終了時刻のオフセット(タイムスタンプ)が含まれるか
setEnableWordConfidence	boolean	一番上の結果には単語のリストとそれらの単語の信頼度が含まれるか
setEnableAutomaticPunctuation	boolean	認識結果の仮説に句読点を追加するか
setEnableSpokenPunctuation	boolean	音声の句読点をリクエスト内の対応する記号に置き換えるか
setEnableSpokenEmojis	boolean	リクエストに音声絵文字の書式設定を追加するか
setMultiChannelMode	MultiChannelMode(enum)	マルチチャンネルオーディオを認識するモード
setDiarizationConfig	SpeakerDiarizationConfig	追加パラメータを設定するための構成
setMaxAlternatives	int	返される認識仮説の最大数(0〜30)

SpeakerDiarizationConfig

メソッド	引数	説明
setMinSpeakerCount	int	会話内の発言者の最小数(1〜6)
setMaxSpeakerCount	int	会話内の発言者の最大数(1〜6)

SpeechAdaptation

メソッド	引数	説明
addPhraseSetsList	AdaptationPhraseSet	インラインフレーズセットのリスト
addCustomClassesList	⧉ CustomClass	インラインカスタムクラスのリスト

AdaptationPhraseSet

メソッド	引数	説明
setPhraseSet	String	既存のフレーズセットの名前
setInlinePhraseSet	⧉ PhraseSet	インラインで定義されたフレーズセット

ExplicitDecodingConfig

メソッド	引数	説明
setEncoding	AudioEncoding(enum)	認識のために送信される音声データのエンコーディング
setSampleRateHertz	int	認識のために送信されるオーディオデータのサンプルレート(ヘルツ)(8000～48000) サポートエンコーディング
audioChannelCount	int	認識のために送信された音声データに存在するチャネルの数(最大8) サポートエンコーディング

TranscriptNormalization

メソッド	引数	説明
addEntriesList	TranscriptNormalization.Entry	置換エントリのリスト(最大100)

TranscriptNormalization.Entry

メソッド	引数	説明
setSearch	String	何を交換するか(最大100文字)
setReplace	String	何と交換するか(最大100文字)
setCaseSensitive	boolean	検索で大文字と小文字が区別されるか

AutoDetectDecodingConfig

定義値	内容
WAV_LINEAR16	WAVコンテナー内の16ビット符号付きリトルエンディアンPCMサンプル
WAV_MULAW	WAVコンテナ内の8ビット圧縮されたmulawサンプル
WAV_ALAW	WAVコンテナ内の8ビット圧縮されたalawサンプル
RFC4867_5_AMR	rfc4867.5ヘッダーを持つAMRフレーム
RFC4867_5_AMRWB	rfc4867.5ヘッダーを持つAMR-WBフレーム
FLAC	「ネイティブFLAC」コンテナ形式のFLACフレーム
MP3	オプションの(無視される)ID3メタデータを含むMPEGオーディオフレーム
OGG_OPUS	Oggコンテナ内のOpusオーディオフレーム
WEBM_OPUS	WebMコンテナ内のOpusオーディオフレーム
M4A	M4Aオーディオ形式

MultiChannelMode

定義値	内容
MULTI_CHANNEL_MODE_UNSPECIFIED	マルチチャンネルモードのデフォルト値
SEPARATE_RECOGNITION_PER_CHANNEL	提供されたオーディオの各チャネルが個別に転写される

AudioEncoding

定義値	内容
AUDIO_ENCODING_UNSPECIFIED	デフォルト値
LINEAR16	ヘッダーなしの16ビット符号付きリトルエンディアンPCMサンプル
MULAW	ヘッダーなしの8ビット圧縮されたmulawサンプル
ALAW	ヘッダーなしの8ビット圧縮されたalawサンプル

サポートエンコーディング

定義値	内容
LINEAR16	ヘッダーなしの16ビット符号付きリトルエンディアンPCMサンプル
MULAW	ヘッダーのない8ビットの圧縮されたmulawサンプル
ALAW	ヘッダーなしの8ビット圧縮されたalawサンプル

1.3. レスポンスの内容

OperationFuture<Recognizer,OperationMetadata>

メソッド	戻り値	説明
getName	String	サーバーによって割り当てられた名前形式："projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認証ツールID}"
isDone	boolean	操作がまだ進行中であるか
getPollingFuture	RetryingFuture<OperationSnapshot>	失敗またはキャンセルされた場合の操作のエラー結果
get	⧉ Recognizer	認識ツールの情報

OperationSnapshot

メソッド	戻り値	説明
getErrorCode	StatusCode	エラーコード
getErrorMessage	String	開発者向けのエラーメッセージ

2. 認識ツールを更新

指定した認識ツールを更新します。

2.1. スコープ

OAuth2.0でこのAPIを実行するには、以下のスコープを指定してください。
サービスアカウントで実行する場合はスコープの指定は不要です。

https://www.googleapis.com/auth/cloud-platform

2.2. 実行

public static void main(String[] args) throws Exception{
    try(SpeechClient client = getSpeechClient()){
        Recognizer.Builder recognizer = Recognizer.newBuilder();
        recognizer.setName(String.format(
                    "projects/%s/locations/%s/recognizers/%s", 
                    "プロジェクトID","ロケーションID","認証ツールID"));
        
        UpdateRecognizerRequest.Builder builder = UpdateRecognizerRequest.newBuilder();
        builder.setRecognizer(recognizer.build());
        
        OperationFuture<Recognizer,OperationMetadata> response = client.updateRecognizerAsync(builder.build());
        System.out.println(response.getName());

        Recognizer get = response.get();
        System.out.println(get);
    }
}

2.2.1. HTTPリクエスト

PATCH:　https://speech.googleapis.com/v2/projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認証ツールID}
が実行されます。

2.2.2. クエリパラメータ

UpdateRecognizerRequest.Builderのsetメソッドにより、リクエストボディを追加できます。
build()メソッドでUpdateRecognizerRequestインスタンスを取得し、
updateRecognizerAsync()に渡します。

メソッド	引数	説明
setRecognizer	Recognizer	【必須】認識ツールの情報
setUpdateMask	FieldMask	更新するフィールド未設定の場合は全てのフィールドが更新対象
setValidateOnly	boolean	リクエストを検証し、更新された認証ツールをプレビューするが実際には更新しないか

2.2.3. リクエストボディ

Recognizer

1.2.3. リクエストボディ(Recognizer)と同じです。

2.3. レスポンスの内容

OperationFuture<Recognizer,OperationMetadata>

1.3. レスポンスの内容(OperationFuture<Recognizer,OperationMetadata>)と同じです。

3. 認識ツールを削除

指定した認識ツールを削除します。

3.1. スコープ

OAuth2.0でこのAPIを実行するには、以下のスコープを指定してください。
サービスアカウントで実行する場合はスコープの指定は不要です。

https://www.googleapis.com/auth/cloud-platform

3.2. 実行

public static void main(String[] args) throws Exception{
    try(SpeechClient client = getSpeechClient()){
        DeleteRecognizerRequest.Builder builder = DeleteRecognizerRequest.newBuilder();
        builder.setName(String.format(
                    "projects/%s/locations/%s/recognizers/%s", 
                    "プロジェクトID","ロケーションID","認証ツールID"));
        
        OperationFuture<Recognizer,OperationMetadata> response = client.deleteRecognizerAsync(builder.build());
        System.out.println(response.getName());

        Recognizer get = response.get();
        System.out.println(get);
    }
}

3.2.1. HTTPリクエスト

DELETE:　https://speech.googleapis.com/v2/projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認証ツールID}
が実行されます。

3.2.2. クエリパラメータ

DeleteRecognizerRequest.Builderのsetメソッドにより、リクエストボディを追加できます。
build()メソッドでDeleteRecognizerRequestインスタンスを取得し、
deleteRecognizerAsync()に渡します。

メソッド	引数	説明
setName	String	【必須】リソース名形式："projects/{プロジェクトID}/locations/{ロケーションID}/recognizers/{認証ツールID}"
setValidateOnly	boolean	リクエストを検証し、削除された認証ツールをプレビューするが実際には削除しないか
setAllowMissing	boolean	認証ツールが見つからない場合、リクエストは成功し操作は行わないか
setEtag	String	チェックサム値

3.2.3. リクエストボディ

リクエストボディはありません。

3.3. レスポンスの内容

Recognizer

⧉ Recognizerと同じです。

おしまい。。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up