#概要
※作者はPythonに関しては初心者なので、簡単な紹介が目的です。また初投稿なので宜しくお願いします。
JasperとはPythonで書かれた、
プリンストン大学の学生二人が書いたオープンソースの音声操作アプリケーションです。
去年から開発が行われ始めたためか、まだcontributingが少ないので、
Python書ける方はぜひ。
対応しているSTT(音声→テキスト)・TTS(テキスト→音声)エンジンが多々あるため、
かなり遊びがいがあります。現在はAPI経由のTwitterやEvernoteとのやりとりが可能です。
例えば(全て和訳しています):
あなた「ジャスパー!」
ジャスパー「ピピッ」
あなた「ツイートして」
ジャスパー「何をツイートしますか?」「ピピッ」
あなた「明日晴れると良いな」
ジャスパー「ツイートします」
要するにPiで動く某お尻です。
#導入手順
- 公式ドキュメントを開く
- 書いている通りに、ひたすらapt-get等を叩いて依存ファイルを取得(問題があったのでのちに追記)
- 認識されたテキストがログとして流れるのを眺めつつ、熱心に英語で話しかけてみる
#導入時の注意点
作者はMethod3(Rasbian導入済み)を利用して導入しましたが、
いくつか問題が起きました。
まずどのMethodを踏んでも避けられないPocketSphinxの導入にあたり、
かなりの依存ファイルがあるのですが、そのうちOpenFSTのビルドがかなり掛かります。
数時間かかります。辛抱強く待ちましょう。
またどうもドキュメントに記載のあるOpenFSTのバージョン(1.3.3)だと
特定できない原因(すみません)でコケるので、
1.4.1で挑戦しましたがこれは大丈夫でした。
そしてpython populate.py
でJasperに個人情報を諸々「覚えさせる」わけですが、
住所(location)を最寄りの大型の市名で指定する際、"Tokyo"等と打っても認識しません。
どうやらアメリカの市しか対応していないらしく、作者は使ってません。
#STT編
作者はどうもデフォルトのPocketSphinxでご認識が多いため、
Google SpeechのAPIを利用しています。
セットアップの仕方はドキュメントに書いてあるのでだいぶ割愛しますが、
https://developers.google.com/
からAPI_KEYを取得し、profile.ymlに書き込んでください。
※ただし一日100回(?)制限があるので検証の際は要注意
#雑感
日本語に対応しているSSTがあれば日本でも盛り上がると思うのですが・・・。
にしてもこんな小さなマシンで音声認識でいろいろ動かせるのは楽しいですね。
作者はWindowsにCygwinを導入し、
自分で書いたmoduleを通してWindowsにSSHし、
ソファからPCのSteamのゲームを起動したりという遊びをしています。
追記(2015年1月27日)
現在エアコンの制御を試してみてます。成功したら、写真を用いて記事を書きたいと思います。