0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Google Cloud Speech-to-Text の利用料金

Posted at

Google Cloud Speech-to-Text を使って、24時間ウェイクワードを検出し続ける場合の料金を計算しました。また、無音時に API を停止することでコストを削減する方法についても解説します。音声認識のリアルタイム処理が必要な場合、どのように効率化できるのか?この記事で詳しく説明します。


料金体系

基本料金

  • 1分あたり $0.016(リアルタイム、標準料金)
  • 追加割引や特殊な設定(バッチ処理やボリュームティアなど)が適用される場合はさらに安くなることもあります。

料金計算例

以下の条件でコストを計算しています:

  • 1分あたりの基本料金:$0.016
  • 稼働時間:8時間24時間(1日)、30日間(1か月)
  • 為替レート:1ドル = 158円

計算結果

  • 8時間のコスト
    8時間 = 480分
    $0.016 × 480分 = $7.68
    日本円換算:約 1,213円

  • 24時間(1日)のコスト
    24時間 = 1440分
    $0.016 × 1440分 = $23.04
    日本円換算:約 3,639円

  • 1か月(30日・24時間稼働)のコスト
    $23.04 × 30日 = $691.20
    日本円換算:約 109,210円


まとめ表

稼働時間 コスト (USD) コスト (JPY)
8時間 $7.68 約 1,213円
24時間 $23.04 約 3,639円
1か月 (30日) $691.20 約 109,210円

無音時に API を停止して料金を削減する方法

24時間 API を使い続けるとコストが高額になるため、無音時には API を停止する工夫をすることで料金を軽減できます。以下に、具体的な手法を示します。

1. 無音検出を導入する

音声入力の前段階に「無音検出」処理を設け、無音かどうかを判定します。

  • オープンソースツールの利用
    無音検出には以下のツールが便利です:

    • pyaudiowebrtcvad(Python 用)
    • 音声信号処理ライブラリ(例: FFmpeg)
  • 閾値設定
    騒音レベルや環境に応じて、無音と判定するための閾値を設定します。
    (例:音量レベルが一定以下、または音声のエネルギーが低い場合)


2. 無音検出と Speech-to-Text API の連携

無音検出を常時行い、以下の条件で API を操作します:

  • 無音検出 → API 呼び出しを停止
  • 音声検出 → API 呼び出しを再開

Python のサンプルコード

import pyaudio
import webrtcvad

vad = webrtcvad.Vad()
vad.set_mode(3)  # 高感度モード

def is_speech(frame):
    return vad.is_speech(frame, 16000)

def start_api_call():
    print("API started")

def stop_api_call():
    print("API stopped")

while True:
    frame = get_audio_frame()  # マイクからフレームを取得
    if is_speech(frame):
        start_api_call()
    else:
        stop_api_call()

3. 無音検出の注意点

  • 処理の軽量化
    無音検出の処理負荷が高いと、システム全体のパフォーマンスに影響を与えるため、軽量な方法を選択することが重要です。

  • 再接続の遅延
    無音から音声に切り替わったときに、API 再接続の遅延を最小化する設計が必要です。


期待される効果

無音時の API 呼び出しを停止することで、トータルの利用時間を大幅に削減できます。
例えば、1日あたり音声が発生している時間が全体の 50% の場合、コストは 半額以下 に削減される可能性があります。


補足

  • バッチ処理の活用
    音声認識のリアルタイム性が不要であれば、音声を蓄積しバッチ処理で Google Cloud Speech-to-Text を使用することで、さらなるコスト削減が可能です。

  • Google のエンハンス機能の活用
    Google Cloud Speech-to-Text には効率化を支援するオプションがあるため、それらも検討する価値があります。


まとめ

Google Cloud Speech-to-Text を利用する際、料金を最適化するには「無音検出」と「API 呼び出しの動的制御」が鍵になります。特に、無音時に API を停止する仕組みを取り入れることで、コストを大幅に軽減できます。

これから音声認識を活用したシステムを設計する方は、ぜひ参考にしてみてください。


参考リンク


以上

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?