Google Speech API にてストリーミング音声処理を行う場合、 LINEAR16
形式のファイルで認識する。
このファイルには、 .wav
ファイルのようにヘッダーに音声情報が乗っているわけではない為、
サンプルレート、エンコード タイプ、チャンネル数を指定する必要がある。
SoX を利用して再生する場合、 '.wav' ファイルならば何も気にせず play ファイル名
を指定すれば良いが、
LINEAR16
は以下のようなコマンドを書く必要がある。
play -t raw --channels=1 --bits=16 --rate=44100 --encoding=signed-integer --endian=little audio_2018-04-09_10-31-57.raw
音声って難しい。
参考:
https://cloud.google.com/speech/docs/support#troubleshooting