TL; DR
- Google Cloud Speech APIをサクッと試せる環境を作った
- Dockerのコンテナを走らせるか、gitプロジェクトをクローンして
bundle install
で動きます - APIキーの取得は自分でどうぞ
前書き
先日、ベータ版でGoogle Cloud Speech APIが一般公開されました。ちょっとだけ試してみたい場合、前述のリンク先でテスト使用ができます。
ただし、そのページでテストできるのは その場で録音した音声 しか使用できません。「音声ファイルの場合どうなるんだ…?」というのをテストするには、実際にPOSTでリクエストを投げる必要があります。
その場合には適切にファイルを変換し、決められたパラメータを調べ、それをを付けてリクエストが必要です。本当にやりたいのはテストであって、パラメータを調べたり、対応する音声ファイル形式を調べたりすることではないのです。
やったこと
手軽に試せるよう、 Docker のコンテナを起動するだけで全て整うようにしました。詳細はREADMEを読んで下さい。
github: dogwood008/google_cloud_speech_recognition_sample
APIキーの発行は自分で行う必要があります。以下を参考にして下さい。ちなみに、Chromium-devグループへの加入は不要でした。
後書き
実際にこれを使って手元にあった音声ファイルを認識してみたところ、声が響く環境だった+「あー」等の間をつなぐ言葉が多用されていたため、あまり精度は良くありませんでした。
この記事「Google Speech API をストリームで利用してみた」にもあるように、ストリームでの認識も魅力的で、(おそらく録音環境と内容が適切であれば)かなりの精度を持っているようです。
これは予想ですが、話者が最初から音声認識させるつもりで話したものを録音したファイルであれば、認識精度は良いのではないかと思います。