音声認識の比較
最近各社が音声認識のためのAPIを積極的に開示している。その中でも日経産業新聞に東芝がRECAIUSという新しい音声認識APIを開発者に提供していると聞き、早速試してみた。
東芝の新しいRECAIUSという音声認識
https://www.toshiba.co.jp/cl/pro/recaius/feature.html
Docomo Developerのやつと似た感じのラインナップではあるが、同時通訳などさらに上を目指しているような印象を受ける。使用するには開発者登録をする。まずメールだけ登録すると、翌営業日にキーが送られてくる。開発者登録の中でも驚くほどシンプル。
Google Web Speech API
ちょっと使ってみたことのあるAPIで、非常に高精度。
https://www.google.com/intl/ja/chrome/demos/speech.html
朗読ファイルを再生して音声認識を比較
読み上げた文章は以下のとおり
案の定、市場の混雑を抜けだす前にトムは彼を見失ってしまった。これからどうすべきかわからなかったので、トムはとりあえず、市場広場から上の路地へと階段が通じている一角で待つことにした。背後の薄暗い路地は静まり返っていて、前方の市場の活気とは奇妙に対照的だった。
RECAIUSでの認識
案の定、上の混雑を抜けだす前にお別れを見失ってしまった。
これからどうすべきか分からなかったのでともとりあえず以上広場から上の路地へと階段が続いてる一角で待つことにした。
介護の薄暗い図書室まで書いていて、前方の一場の活気とは奇妙に対照的だった。
Google Web Speechでの認識
あの上支障の混雑を抜け出す前にとも別れを三勇士なってしまったこれからどうすべきかわからなかったので ともはとりあえず地上広場から上野 ロジエと階段が続いている 一鶴で待つことにした 英語のうすぐらいの事は集まり返っていて 前方の市場の楽器とは 奇妙に対照的だった
感想
どちらも、一般的な会話文の認知の精度にはほとんど差はないくらいの高性能だと言える。例えば一般的な英語のテキストを読み上げてみたところ、文節の区切りなどに違いがあるにしても、99%正確に認識して文字を起こせる。
私はビールを飲むのがコーヒーやお茶よりも好きです。
お母さんはいつも働いています。私はお母さんにお礼を言います。
このような文章は、その他Docomoの音声認識やYahooのでもほぼ完璧だ。
しかし小説の一部のような朗読の場合、文章表現の幅が大きいためか認知度は極端に下がる。今回試した小説の範囲ではRECAIUSのほうが精度は良かったように思う。