LoginSignup
25
19

More than 5 years have passed since last update.

Google Speech API を手軽に試せる環境を Docker で構築した

Posted at

TL; DR

前書き

先日、ベータ版でGoogle Cloud Speech APIが一般公開されました。ちょっとだけ試してみたい場合、前述のリンク先でテスト使用ができます。

ただし、そのページでテストできるのは その場で録音した音声 しか使用できません。「音声ファイルの場合どうなるんだ…?」というのをテストするには、実際にPOSTでリクエストを投げる必要があります。

その場合には適切にファイルを変換し、決められたパラメータを調べ、それをを付けてリクエストが必要です。本当にやりたいのはテストであって、パラメータを調べたり、対応する音声ファイル形式を調べたりすることではないのです。

やったこと

手軽に試せるよう、 Docker のコンテナを起動するだけで全て整うようにしました。詳細はREADMEを読んで下さい。

github: dogwood008/google_cloud_speech_recognition_sample

APIキーの発行は自分で行う必要があります。以下を参考にして下さい。ちなみに、Chromium-devグループへの加入は不要でした。

後書き

実際にこれを使って手元にあった音声ファイルを認識してみたところ、声が響く環境だった+「あー」等の間をつなぐ言葉が多用されていたため、あまり精度は良くありませんでした。

この記事「Google Speech API をストリームで利用してみた」にもあるように、ストリームでの認識も魅力的で、(おそらく録音環境と内容が適切であれば)かなりの精度を持っているようです。

これは予想ですが、話者が最初から音声認識させるつもりで話したものを録音したファイルであれば、認識精度は良いのではないかと思います。

参考にさせて頂いた記事、資料

25
19
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
25
19