はじめに
- Google Cloud Speech-to-Textの実力を検証しました。
- 音声文字変換モデルをプレミアムなモデルにするとさらに精度がUPしました。
- ほとんどの日本人が正しく聞き取れないネイティブの英語を100%の精度で変換することができました。
検証に使用したのは私が英語のリスニング強化のためにいつも使用しているYouTubeサイトです。
ニック式英会話
英語 リスニング:このドラマ、聞き取れますか?21(SUITS)
https://www.youtube.com/watch?v=qcwH6LR7OKM
Google Cloud Speech-to-Textは下記サイトから誰でも簡単に試用することができます。
(UPLOAD音声は60秒以内の制限あり)
Cloud Speech-to-Text
https://cloud.google.com/speech-to-text/
1. 音声モデル default
2. 音声モデル video
結果比較
正解
I told him that Louis put me up to it and that he couldn't trust him
音声モデル default ※赤字は間違っている単語
I told him that Lewis put me up to it and then you can trust it
音声モデル video ※ミスがありません。
I told him that Louis put me up to it and that he couldn't trust him
その他
- サンプルに使用した音声は、PCの再生音を録音し作成しました。そのままでもほぼ完ぺきな認識率でしたが、音声編集ソフトAudacityでコンプレッサーをかけ、推奨のLINEAR16に変換したところ100%になりました。
- 日本語の変換には音声モデルがありません。精度も英語と比べると劣ります。漢字の変換ミスが多いです。同音の漢字が多いので英語に比べて難易度が高いのではないかと思います。
- APIを使用すれば、長時間音声、マルチ言語音声も変換が可能です。マルチ言語のAPIベータ版を日本語と英語がミックスされた音声で試してみましたがこちらの変換精度はいまいちでした。人が聞けばすぐに日本語か英語か区別できるのにAIはうまく区別できていないようでした。