Edited at

Speech API を使ってみたの巻


目的

音声処理を賢く(雑音除いたり、音声認識ソフトを導入したり、、、といった手間なく)やりたくて


目標

手軽にやってみるため、打合せを録音して、文字起こししてみる


やったこと

GCP のコンソールへ音声ファイルをアップ > SpeechAPI をたたいて文字ファイルをゲット


結論

下のように、ルイージが出てきたり、痩せる薬を作ってる人になったりした。。。

※別にそんなこと話してません笑

CB 2カスタム

今あるんですけどセンター
それがとても助かります
理科教えておりました
最近
LINE バイブレーション
やるとしてもこれ一個ちょっとやってみた
無理やりアパッチ常にさせるぐらい
サンプル作っといてルイージの申請が来た時はこれでどうでしょう
AI のツール jp 1だと思っていないが使えるような環境を整える
スーパー三和ってそのイメージできている画像
本当に痩せる薬時間ために人間がいる
領収が非常に多いようなイメージですねえちょっと冒険した'


気づき

音声ファイルの質は、google 推奨のものがあるので、その形式(高音質)で録音しよう。

別形式でも対応してくれるみたいだが、私の質の悪いファイルは、言語として認識してくれず、応答なしとしてAPI から回答があった。

環境音(ガサガサ、隣の部屋の笑い声など)がかなり入っても勝手に削除してくれてそう。

ただ、人の会話はしっかり拾う必要があり、PC の録音(指向性なし、集音声なし)では、上のように訳わからんものになりそう。

音声ファイル自体も良くないので、Speech API が悪い!という意味ではないです。

自分で文字起こししてみましたが、聞き取れないものの方が多く、20~30% しか文字に起こせなかった。しかも、打合せしてた人間が文字起こししたので、半分ぐらいは記憶が補足していると想定すると、まぁ、、、SpeechAPI の評価には使えないかなと。


やったこと

したのgithub にソース上げてます。

https://github.com/HaHatake/SpeechAPI

~~~ 一部抜粋 ~~~

Complete auth service account work

upload audio file to google cloud storage and finish open that file

start google cloud shell

"pip install --upgrade google-cloud-speech"

"sudo curl -LO https://raw.githubusercontent.com/HaHatake/SpeechAPI/master/speechapi"

"python speechapi.py gs://"yourbacket"/"youraudiofile.flac"

wait for 5min ~ 10min

output jp,utf-8 character file

end of the job