みなさんは人と会話するとき、どうやって会話しますか?
電話を使いますか?
テレビ電話を使いますか?
それとも直接対面で話しますか?
これらにはどんな違いがありますか?
今回はそんな感じの話をしようと思います。
マルチモーダル・インタラクションのメカニズム
先程の疑問なのですが、何が違うのかというと、
- 電話では聴覚のみで会話する
- テレビ電話では視覚と聴覚のみで会話する。体の一部しか見えない。
- 対面では視覚と聴覚はもちろん嗅覚でも相手の状態を知り、会話する。もちろん全身が見える。
ということで、感覚の種類が異なるということでした。
めでたしめでたし。
ではありません。
一見すると感覚がただ追加されただけのように見えますが、実は知覚や認識の面では大きく異なってきます。一番わかりやすい差は、テレビ電話では起こせても電話では起こせないMcGurk効果という現象[1]を起こすことができる点です。
McGurk効果とは人間の音声認識において視覚と聴覚を相互利用しているために通常ではありえないような刺激を受けると、聴覚での認識と異なった認識結果が得られるという現象です。たとえば、baという声を流しながら、映像ではgaという口の動きをさせた映像を見せると、daと聞こえてきます。
ちなみにわかりやすい動画はこちらになります。
https://www.youtube.com/watch?v=Fke7GWcT5ko
このように音声とは通常聴覚への刺激のみで認識していると思われがちですが、視覚への刺激も同時に使い認識していることが分かります。
さらに、実験参加者の目の動きを計測しながら、人が喋る映像を見せると、実験参加者は目を見るのではなく口の方を無意識的に見ていることがわかっています。つまり、音声認識では、無意識的に視覚が読唇術のようなことを行い、音声の認識を補完しているのです。
このように複数の感覚を利用する現象や方法をマルチモーダルと言い、その要素である感覚などのことをモダリティといいます。
通常、人間は世界をマルチモーダルで認識しています。以前説明した近接学がなぜ応用編だったのかというと、近接学が運動、聴覚、視覚などのマルチモーダルで構成されるためだからです。逆に1つのモダリティのみで認識することは電話のようなかなり人工的に作られた環境でしか起こらないのです。もちろん認識だけではなく、われわれは会話においてもマルチモーダルに行動しています。たとえば、音声を出すためには、言語野で言葉を考えつつ、口を動かす運動をしながら、聴覚で音量などをフィードバック制御しつつ、ときには表情を作ったり、手を動かしたり、たくさんのモダリティを使って相手とコミュニケーションをはかります。
では、脳内ではどのようにマルチモーダルな非言語情報を処理しているのでしょうか。
一般的には連合野と呼ばれる部分で感覚情報を統合し、やり取りしています。たとえば、側頭連合野では聴覚と視覚を統合しています。このように感覚は統合されて認識を行います。ちなみに体性感覚と運動に関する連合野はありませんが、大脳皮質では隣にあり、脊髄で体性感覚と筋肉がつながっています。
実装: これまでのやつをごった煮にした人間っぽいもの
それでは人間では普通に行われているマルチモーダルインタラクションの仕組みを機械にも実装してみましょう。
今回はそれぞれの認識をモジュール化し、ROSでつなぐようにしましょう。
材料
開発用PC(Win) 1
動作用PC(Ubuntu) 1
Webカメラ 1
Unity 1
ROS 1
など
ソースコード
(時間があったらね)
実験結果
これまでよりもコミュニケーションの幅が大きく広がったと思います。
まとめ
今回は人間は複数の感覚をもとにコミュニケーションしているという話をしました。
では逆にマルチモーダルで情報が揃っていないと行けないはずなのに、モダリティが一部欠けてしまうと認識としてはどうなってしまうのかというクロスモーダル現象の話をします。
#参考文献
[1] McGurk, Harry; MacDonald, John (1976), “Hearing lips and seeing voices”, Nature 264 (5588): 746-748