More than 1 year has passed since last update.

Google Cloud Speech-to-Text の利用料金

speech-to-text

Posted at 2025-01-10

Google Cloud Speech-to-Text を使って、24時間ウェイクワードを検出し続ける場合の料金を計算しました。また、無音時に API を停止することでコストを削減する方法についても解説します。音声認識のリアルタイム処理が必要な場合、どのように効率化できるのか？この記事で詳しく説明します。

料金体系

基本料金

1分あたり $0.016（リアルタイム、標準料金）
追加割引や特殊な設定（バッチ処理やボリュームティアなど）が適用される場合はさらに安くなることもあります。

料金計算例

以下の条件でコストを計算しています：

1分あたりの基本料金：$0.016
稼働時間：8時間、24時間（1日）、30日間（1か月）
為替レート：1ドル = 158円

計算結果

8時間のコスト
8時間 = 480分
$0.016 × 480分 = $7.68
日本円換算：約 1,213円
24時間（1日）のコスト
24時間 = 1440分
$0.016 × 1440分 = $23.04
日本円換算：約 3,639円
1か月（30日・24時間稼働）のコスト
$23.04 × 30日 = $691.20
日本円換算：約 109,210円

まとめ表

稼働時間	コスト (USD)	コスト (JPY)
8時間	$7.68	約 1,213円
24時間	$23.04	約 3,639円
1か月 (30日)	$691.20	約 109,210円

無音時に API を停止して料金を削減する方法

24時間 API を使い続けるとコストが高額になるため、無音時には API を停止する工夫をすることで料金を軽減できます。以下に、具体的な手法を示します。

1. 無音検出を導入する

音声入力の前段階に「無音検出」処理を設け、無音かどうかを判定します。

オープンソースツールの利用
無音検出には以下のツールが便利です：
- pyaudio や webrtcvad（Python 用）
- 音声信号処理ライブラリ（例: FFmpeg）
閾値設定
騒音レベルや環境に応じて、無音と判定するための閾値を設定します。
（例：音量レベルが一定以下、または音声のエネルギーが低い場合）

2. 無音検出と Speech-to-Text API の連携

無音検出を常時行い、以下の条件で API を操作します：

無音検出 → API 呼び出しを停止
音声検出 → API 呼び出しを再開

Python のサンプルコード

import pyaudio
import webrtcvad

vad = webrtcvad.Vad()
vad.set_mode(3)  # 高感度モード

def is_speech(frame):
    return vad.is_speech(frame, 16000)

def start_api_call():
    print("API started")

def stop_api_call():
    print("API stopped")

while True:
    frame = get_audio_frame()  # マイクからフレームを取得
    if is_speech(frame):
        start_api_call()
    else:
        stop_api_call()

3. 無音検出の注意点

処理の軽量化
無音検出の処理負荷が高いと、システム全体のパフォーマンスに影響を与えるため、軽量な方法を選択することが重要です。
再接続の遅延
無音から音声に切り替わったときに、API 再接続の遅延を最小化する設計が必要です。

期待される効果

無音時の API 呼び出しを停止することで、トータルの利用時間を大幅に削減できます。
例えば、1日あたり音声が発生している時間が全体の 50% の場合、コストは 半額以下 に削減される可能性があります。

補足

バッチ処理の活用
音声認識のリアルタイム性が不要であれば、音声を蓄積しバッチ処理で Google Cloud Speech-to-Text を使用することで、さらなるコスト削減が可能です。
Google のエンハンス機能の活用
Google Cloud Speech-to-Text には効率化を支援するオプションがあるため、それらも検討する価値があります。

まとめ

Google Cloud Speech-to-Text を利用する際、料金を最適化するには「無音検出」と「API 呼び出しの動的制御」が鍵になります。特に、無音時に API を停止する仕組みを取り入れることで、コストを大幅に軽減できます。

これから音声認識を活用したシステムを設計する方は、ぜひ参考にしてみてください。

参考リンク

Google Cloud Speech-to-Text 公式料金ページ

以上

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up