More than 3 years have passed since last update.

HameeAdvent Calendar 2021

@itanium-R

Tensorによる音声認識の精度は本当に高い？Web Speech APIと比較してみた

Last updated at 2021-12-14Posted at 2021-12-13

はじめに

新しく生まれ変わった。Google Pixel 6。
Google 初のプロセッサー「Google Tensor」を搭載。
このTensorを用いて可能なことの一つに、高精度な音声認識があげられます。

この音声認識の精度はどれくらい高いのか、検証してみました。
比較対象は、Web Speech APIを用いて実装した音声認識できるWebページを他のAndroid端末でGoogle Chromeを用いて開いたものです。

Web Speech APIとは

概要

Web Speech API は、Webアプリで音声データを扱い、音声認識や音声合成を可能にする機能です。
ただし、試験的な機能であり、使用できるブラウザが限られています。

参考：

Google Chromeでこの機能を用いる場合、サーバーベースの認識エンジンを用いるようです。Googleのサーバで処理されるものだと見られるので、Google音声入力などの類似サービスと同様の認識精度であると考えられます。

参考：

デモ

Google Chromeなど、Web Speech APIを利用可能なブラウザの開発者モードのコンソールにて、以下のコードを実行すると、発話内容をAlert表示してくれます。

const recognition = new webkitSpeechRecognition();
recognition.onresult = function(event){
  if(event.results.length > 0){
    alert(event.results[0][0].transcript);
  }
  recognition.stop();
}

recognition.start();

比較

用いた端末

今回の比較は、以下の２台で行いました

OPPO A73 (Web Speech API on Chromeにて音声認識、左)
Google Pixel 6 Pro (レコーダーアプリにて音声認識、右)

端末を２台並べ、スピーカーからの音声ないし私が発話した音声を音声認識させて比較しました。

それでは、検証結果を以下に記していきます。
誤認識を太字で示しています(誤変換を除く)。

英語(？)編

原音声の発話内容

Please change here for the Saikyo line, the Shonan Shinjuku line, and the Tokyo Rinkai Kosoku Tetsudo Rinkai line.

Web Speech APIによる音声認識

please change here for the cycle like the show not show up in line and the Tokyo rig

Tensorによる音声認識

Please change here for the cycle line, the Shona Shinjuku line, and the Tokyo Rinkai kosokutinto Rican line.

評価

英語とそれに紛れ込む英語話者の話す日本の路線名という、機械には認識しづらそうなこちらの車内放送音声。YouTubeにあった録音音声をスピーカーで流し、そちらを音声認識させました。
双方、やはり日本の路線名を英語話者が話す部分について苦戦していました。埼京線はサイクル線と認識されました。東京臨海高速鉄道りんかい線についてはWeb Speech APIは歯が立たず、Tensorはおしい、といった感じでした。湘南新宿ラインについてはTensorの圧勝でした。
全体的には、Web Speech APIでは訳のわからない認識結果でしたが、Tensorはある程度は伝わる認識結果となり、精度の高さが見受けられました。

日本語アニメのワンシーン編

原音声の発話内容

「千尋というのかい？」
「はい。」
「贅沢な名だね。」
「今からお前の名前は千だ。いいかい、千だよ。分かったら返事をするんだ、千！」
（『千と千尋の神隠し（スタジオジブリ）』より）

Web Speech APIによる音声認識

ちひろというの会ハイ贅沢な名だね今からお前の名はせんだいい回線だよ分かったら返事をするんだ線

Tensorによる音声認識

千尋というのかいはい贅沢ななだね。今からお前の名は千だいい回線だよ。わかったら返事をするんだ。千。

評価

こちらは今作品の音声をそのまま聴かせる場合はBGMが大きいからかうまくいかなかったため、私が読み上げたも音声を使用し検証しました。
双方、ひらがなに直すとミスなしでした。漢字への誤変換などが見受けられますが、この点もTensorの方が誤りが少なく優秀だということがわかりました。

日本語 YouTube LiVEのワンシーン編

原音声の発話内容

本日、ソライロリポートを送りましたか？　送った、送っていない、この後送るから、お選びください。
（『ウェザーニュースLiVE（2021/11/16放送分）』より）

Web Speech APIによる音声認識

分かりましたか分かった送っていないこの後お風呂からお選びください

Tensorによる音声認識

本日、空色リゾートを送りましたか？送った送っていない。この後送るからお選びください。

評価

YouTube LiVEで放送された音声をスピーカーから流し、そちらを音声認識させて検証しました。
今回、Web Speech APIは散々な結果に。対してTensorはほぼ完璧に認識できていました。
Tensorのすごいところが、「送りましたか？」という問いかけ（実際の音声では語尾が上がっている）に対してしっかり「？」をつけているところ。疑問や問いかけまでも認識できてしまう、さすがGoogleの最新技術が詰まっているだけあるな、と感心しました。

おわりに

Tensorの優秀さを確認できたところで、筆を置かせていただきます。
この精度なら、会議の議事録作成機としても十分使えそうですね。

音声認識以外も、すごい機能のつまったPixel 6シリーズ。
まだ持ってない方は、是非お買い求めになることを強くお勧めします。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Tensorによる音声認識の精度は本当に高い？Web Speech APIと比較してみた

はじめに

Web Speech APIとは

概要

デモ

比較

用いた端末

英語(？)編

原音声の発話内容

Web Speech APIによる音声認識

Tensorによる音声認識

評価

日本語 アニメのワンシーン編

原音声の発話内容

Web Speech APIによる音声認識

Tensorによる音声認識

評価

日本語 YouTube LiVEのワンシーン編

原音声の発話内容

Web Speech APIによる音声認識

Tensorによる音声認識

評価

おわりに

日本語アニメのワンシーン編