More than 5 years have passed since last update.

Speech API を使ってみたの巻

Last updated at 2019-05-14Posted at 2018-05-22

目的

音声処理を賢く（雑音除いたり、音声認識ソフトを導入したり、、、といった手間なく）やりたくて

目標

手軽にやってみるため、打合せを録音して、文字起こししてみる

やったこと

GCP のコンソールへ音声ファイルをアップ　＞　SpeechAPI をたたいて文字ファイルをゲット

結論

下のように、ルイージが出てきたり、痩せる薬を作ってる人になったりした。。。
※別にそんなこと話してません笑

CB 2カスタム
今あるんですけどセンター
それがとても助かります
理科教えておりました
最近
LINE バイブレーション
やるとしてもこれ一個ちょっとやってみた
無理やりアパッチ常にさせるぐらい
サンプル作っといてルイージの申請が来た時はこれでどうでしょう
AI のツール jp 1だと思っていないが使えるような環境を整える
スーパー三和ってそのイメージできている画像
本当に痩せる薬時間ために人間がいる
領収が非常に多いようなイメージですねえちょっと冒険した'

気づき

音声ファイルの質は、google 推奨のものがあるので、その形式（高音質）で録音しよう。
別形式でも対応してくれるみたいだが、私の質の悪いファイルは、言語として認識してくれず、応答なしとしてAPI から回答があった。

環境音（ガサガサ、隣の部屋の笑い声など）がかなり入っても勝手に削除してくれてそう。
ただ、人の会話はしっかり拾う必要があり、PC の録音（指向性なし、集音声なし）では、上のように訳わからんものになりそう。

音声ファイル自体も良くないので、Speech API が悪い！という意味ではないです。
自分で文字起こししてみましたが、聞き取れないものの方が多く、20~30% しか文字に起こせなかった。しかも、打合せしてた人間が文字起こししたので、半分ぐらいは記憶が補足していると想定すると、まぁ、、、SpeechAPI の評価には使えないかなと。

やったこと

したのgithub にソース上げてます。
https://github.com/HaHatake/SpeechAPI

～～～　一部抜粋　～～～

Complete auth service account work

upload audio file to google cloud storage and finish open that file

start google cloud shell

"pip install --upgrade google-cloud-speech"

"sudo curl -LO https://raw.githubusercontent.com/HaHatake/SpeechAPI/master/speechapi"

"python speechapi.py gs://"yourbacket"/"youraudiofile.flac"

wait for 5min ~ 10min

output jp,utf-8 character file

end of the job

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up