Google Cloud Speech APIでストリーミング音声認識 #Python

2016/9/14現在の情報です

Google Cloud Speech APIでマイク入力からのストリーミング音声認識を試す.

以前REST API版で録音済ファイルの認識を試したので、今回はgRPC版でストリーミング認識させてみる.

手順

Google公式のサンプル
のREADMEの手順に従う.

今回試すのはストリーミング認識のtranscribe_streaming.py .

Service Accountのjsonを得るところまではREST版と同じ手順.

起動するとlisten_print_loopの中でservice.StreamingRecognizeが値を返す限り認識が続く.(DEADLINE_SECSの秒数が経過するとタイムアウトで終了する)

このサンプルは発言にexitまたはquitの単語が含まれていると処理を終えるようになっている (listen_print_loopの後半) ので、これらの単語を止まれ とか 終了 とかに変えておくと日本語でも同じことができるだろう.

発話途中の認識は単語レベルで行われているようで、ネットッワークを介してると思えない速さでびっくりする. ただし途中の認識結果は間違っていることもあるので、急がないなら全部終わるのを待った方が確実だろう.

その他のオプションはgRPC APIのマニュアル参照

Githubのコードはかなり頻繁に更新されているので、日々チェックした方が良い.

MACとLinuxでそれぞれラップトップのビルトインマイク/USBの外付けマイクで試したが、いずれも3-10発話または15-30秒ぐらい経つと特にエラーもないまま認識しなくなる.
要調査.

v1beta1とあって、まだまだテスト段階なのかなと思われる.
gRPC (とpytonからの扱い方) に慣れないと正しく使うのが難しそう.