目的
音声処理を賢く(雑音除いたり、音声認識ソフトを導入したり、、、といった手間なく)やりたくて
目標
手軽にやってみるため、打合せを録音して、文字起こししてみる
やったこと
GCP のコンソールへ音声ファイルをアップ > SpeechAPI をたたいて文字ファイルをゲット
結論
下のように、ルイージが出てきたり、痩せる薬を作ってる人になったりした。。。
※別にそんなこと話してません笑
CB 2カスタム
今あるんですけどセンター
それがとても助かります
理科教えておりました
最近
LINE バイブレーション
やるとしてもこれ一個ちょっとやってみた
無理やりアパッチ常にさせるぐらい
サンプル作っといてルイージの申請が来た時はこれでどうでしょう
AI のツール jp 1だと思っていないが使えるような環境を整える
スーパー三和ってそのイメージできている画像
本当に痩せる薬時間ために人間がいる
領収が非常に多いようなイメージですねえちょっと冒険した'
気づき
音声ファイルの質は、google 推奨のものがあるので、その形式(高音質)で録音しよう。
別形式でも対応してくれるみたいだが、私の質の悪いファイルは、言語として認識してくれず、応答なしとしてAPI から回答があった。
環境音(ガサガサ、隣の部屋の笑い声など)がかなり入っても勝手に削除してくれてそう。
ただ、人の会話はしっかり拾う必要があり、PC の録音(指向性なし、集音声なし)では、上のように訳わからんものになりそう。
音声ファイル自体も良くないので、Speech API が悪い!という意味ではないです。
自分で文字起こししてみましたが、聞き取れないものの方が多く、20~30% しか文字に起こせなかった。しかも、打合せしてた人間が文字起こししたので、半分ぐらいは記憶が補足していると想定すると、まぁ、、、SpeechAPI の評価には使えないかなと。
やったこと
したのgithub にソース上げてます。
https://github.com/HaHatake/SpeechAPI
~~~ 一部抜粋 ~~~
Complete auth service account work
upload audio file to google cloud storage and finish open that file
start google cloud shell
"pip install --upgrade google-cloud-speech"
"sudo curl -LO https://raw.githubusercontent.com/HaHatake/SpeechAPI/master/speechapi"
"python speechapi.py gs://"yourbacket"/"youraudiofile.flac"
wait for 5min ~ 10min
output jp,utf-8 character file
end of the job