Bluemixのサービスの中にWatsonに分類されているサービスがたくさんありますが、それぞのサービスがどのようなものなのか試してみようと思います。
なにやらそれぞれが難しそうなので、まずは簡単なところから
#Speech to Textとは
なんとなく名前を見ただけで機能が想像つきます。文字通り、マイクに向かって話しかけた言葉をテキストにしてくれます。今の所サポートしているのは、英語、日本語、スペイン語でした。英語、スペイン語の間に日本語が入っているのは凄いと思います。数で言えば中国語とかの方が人口が多そうなのに・・・
#サービスの追加
まずはサービスの追加。Watsonにカテゴライズされた中にあります。ここから自分のダッシュボードにサービスを追加します。最初の1000分は無料なので、それまでは費用はかかりません。(そもそも自分はトライアル中だし、大丈夫なはず)
そしてダッシュボードから、Speech to Textサービスの起動
起動後の画面はこんな感じです。
このデモアプリケーションでは、Speechの入力は、この画面に向かってマイクから直接音声も入れられますし、あらかじめ録音されている音声ファイルをアップロードすることでも処理できるということです。
まずはやってみます。日本語から。
原稿とか準備しておけばよかったのですが、思いつきで話をしているので日本語としても間違っているのかもしれません。入力結果はこんな感じ。単純なスピーチ認識ではなく、バックエンドでWatsonが手伝っているだけに、生麦と言ったところで言っていないのに生卵まで画面に表示されていたような気もします。「青巻き紙」とか言ってみましたが、自分の方が噛んでしまいました。
そして英語
自分が話しかけても全然ダメです。発音がなっていないみたいです。
手元にあったBoseのヘッドホンの説明をiPhoneから流して、それを入力にSpeech to Textで処理してみました。
どうですか?これならイケそうです。やっぱり英語得意みたいです。結構なスピードでしゃべっていましたがきちんと追いついてきています。
#まとめ
Speech to Text は、アプリケーションに組み込んで利用できるようになっていますが、今回利用したのは、サンプルとして提供されていたデモアプリケーションです。実際にAPIをアプリケーションに組み込んでみると、音声制御や、録音済みの音声からテキスト情報を起こすなどいろいろな用途に使えそうです。
BigDataとして音声ファイルとかを解析するときには、まず、この機能を使ってテキスト化してしまえば、解析がうまくできそうです。
今回は、PCの本体に内蔵されたマイクを利用しましたが、ちゃんとヘッドセットとかつければより認識率は高くなりそうです。サービスも単体で動きますので、Bluemix上で、まずは、どれくらいの精度で認識するか試してみてはいかがでしょうか。