More than 5 years have passed since last update.

Google Cloud Speech-to-Textの英語リスニング力について

Last updated at 2019-06-22Posted at 2019-06-22

はじめに

検証に使用したのは私が英語のリスニング強化のためにいつも使用しているYouTubeサイトです。
ニック式英会話
英語　リスニング：このドラマ、聞き取れますか？21（SUITS）
https://www.youtube.com/watch?v=qcwH6LR7OKM

Google Cloud Speech-to-Textは下記サイトから誰でも簡単に試用することができます。
（UPLOAD音声は60秒以内の制限あり）
Cloud Speech-to-Text
https://cloud.google.com/speech-to-text/

正解
I told him that Louis put me up to it and that he couldn't trust him

音声モデル default　※赤字は間違っている単語
I told him that Lewis put me up to it and then you can trust it

音声モデル video ※ミスがありません。
I told him that Louis put me up to it and that he couldn't trust him

サンプルに使用した音声は、PCの再生音を録音し作成しました。そのままでもほぼ完ぺきな認識率でしたが、音声編集ソフトAudacityでコンプレッサーをかけ、推奨のLINEAR16に変換したところ100%になりました。
日本語の変換には音声モデルがありません。精度も英語と比べると劣ります。漢字の変換ミスが多いです。同音の漢字が多いので英語に比べて難易度が高いのではないかと思います。
APIを使用すれば、長時間音声、マルチ言語音声も変換が可能です。マルチ言語のAPIベータ版を日本語と英語がミックスされた音声で試してみましたがこちらの変換精度はいまいちでした。人が聞けばすぐに日本語か英語か区別できるのにAIはうまく区別できていないようでした。