はじめに
新しく生まれ変わった。Google Pixel 6。
Google 初のプロセッサー「Google Tensor」を搭載。
このTensorを用いて可能なことの一つに、高精度な音声認識があげられます。
この音声認識の精度はどれくらい高いのか、検証してみました。
比較対象は、Web Speech APIを用いて実装した音声認識できるWebページを他のAndroid端末でGoogle Chromeを用いて開いたものです。
Web Speech APIとは
概要
Web Speech API は、Webアプリで音声データを扱い、音声認識や音声合成を可能にする機能です。
ただし、試験的な機能であり、使用できるブラウザが限られています。
参考:
Google Chromeでこの機能を用いる場合、サーバーベースの認識エンジンを用いるようです。Googleのサーバで処理されるものだと見られるので、Google音声入力などの類似サービスと同様の認識精度であると考えられます。
参考:
デモ
Google Chromeなど、Web Speech APIを利用可能なブラウザの開発者モードのコンソールにて、以下のコードを実行すると、発話内容をAlert表示してくれます。
const recognition = new webkitSpeechRecognition();
recognition.onresult = function(event){
if(event.results.length > 0){
alert(event.results[0][0].transcript);
}
recognition.stop();
}
recognition.start();
比較
用いた端末
今回の比較は、以下の2台で行いました
- OPPO A73 (Web Speech API on Chromeにて音声認識、左)
- Google Pixel 6 Pro (レコーダーアプリにて音声認識、右)
端末を2台並べ、スピーカーからの音声ないし私が発話した音声を音声認識させて比較しました。
それでは、検証結果を以下に記していきます。
誤認識を太字で示しています(誤変換を除く)。
英語(?)編
原音声の発話内容
Please change here for the Saikyo line, the Shonan Shinjuku line, and the Tokyo Rinkai Kosoku Tetsudo Rinkai line.
Web Speech APIによる音声認識
please change here for the cycle like the show not show up in line and the Tokyo rig
Tensorによる音声認識
Please change here for the cycle line, the Shona Shinjuku line, and the Tokyo Rinkai kosokutinto Rican line.
評価
英語とそれに紛れ込む英語話者の話す日本の路線名という、機械には認識しづらそうなこちらの車内放送音声。YouTubeにあった録音音声をスピーカーで流し、そちらを音声認識させました。
双方、やはり日本の路線名を英語話者が話す部分について苦戦していました。埼京線はサイクル線と認識されました。東京臨海高速鉄道りんかい線についてはWeb Speech APIは歯が立たず、Tensorはおしい、といった感じでした。湘南新宿ラインについてはTensorの圧勝でした。
全体的には、Web Speech APIでは訳のわからない認識結果でしたが、Tensorはある程度は伝わる認識結果となり、精度の高さが見受けられました。
日本語 アニメのワンシーン編
原音声の発話内容
「千尋というのかい?」
「はい。」
「贅沢な名だね。」
「今からお前の名前は千だ。いいかい、千だよ。分かったら返事をするんだ、千!」
(『千と千尋の神隠し(スタジオジブリ)』より)
Web Speech APIによる音声認識
ちひろというの会ハイ贅沢な名だね今からお前の名はせんだいい回線だよ分かったら返事をするんだ線
Tensorによる音声認識
千尋というのかいはい贅沢ななだね。今からお前の名は千だいい回線だよ。わかったら返事をするんだ。千。
評価
こちらは今作品の音声をそのまま聴かせる場合はBGMが大きいからかうまくいかなかったため、私が読み上げたも音声を使用し検証しました。
双方、ひらがなに直すとミスなしでした。漢字への誤変換などが見受けられますが、この点もTensorの方が誤りが少なく優秀だということがわかりました。
日本語 YouTube LiVEのワンシーン編
原音声の発話内容
本日、ソライロリポートを送りましたか? 送った、送っていない、この後送るから、お選びください。
(『ウェザーニュースLiVE(2021/11/16放送分)』より)
Web Speech APIによる音声認識
分かりましたか分かった送っていないこの後お風呂からお選びください
Tensorによる音声認識
本日、空色リゾートを送りましたか?送った送っていない。この後送るからお選びください。
評価
YouTube LiVEで放送された音声をスピーカーから流し、そちらを音声認識させて検証しました。
今回、Web Speech APIは散々な結果に。対してTensorはほぼ完璧に認識できていました。
Tensorのすごいところが、「送りましたか?」という問いかけ(実際の音声では語尾が上がっている)に対してしっかり「?」をつけているところ。疑問や問いかけまでも認識できてしまう、さすがGoogleの最新技術が詰まっているだけあるな、と感心しました。
おわりに
Tensorの優秀さを確認できたところで、筆を置かせていただきます。
この精度なら、会議の議事録作成機としても十分使えそうですね。
音声認識以外も、すごい機能のつまったPixel 6シリーズ。
まだ持ってない方は、是非お買い求めになることを強くお勧めします。