Alexaの頭の中

Posted at 2023-12-22

はじめに

口で指示するだけで色々やってくれる機械があればラクだろうなぁ...

そんな人々の願望を叶えるAlexaが現れてから、どれくらい経つでしょうか。

人間の発した音声を聞き取って答えを返してくれる AIスピーカー は、今や日々の生活の中に当然のように避け込んでいます。

今回は前半でAIスピーカー内部のプロセスを簡単に紹介します。

AIスピーカーは、主に下記4プロセスを実行することで我々の話す内容に応答しています。

ひとつずつ見ていきましょう。

一般家庭において、AIスピーカーはたいていノイズの混じった音を取り込みます。
たとえば洗い物をしていて手が塞がっている時、何か気分の上がる音楽をかけてほしい。
そんな時、きっとAlexaに向かって「気分の上がる音楽をかけて」と話しかけるはずです。

そんなとき水がジャージャー流れる音が入るのは当たり前。

「キブン "ｼﾞｬｰ" ノアガ "ｼﾞｬｰ" ルオンガク "ｼﾞｬｰ" ヲカケテ "ｼﾞｬｰｼﾞｬｰ"」

こんなノイズ混じりの音声から我々のリクエストを聞き取ってくれないようでは、使いようがありません。
取り込んだ音声からノイズを除去し、ユーザの発する声を抽出する必要があるのです。

ノイズ除去ができてはじめて、 音声を認識 するプロセスに移ります。
つまり、ここでのAIスピーカーの脳内は

「お、"キブンノアガルオンガクヲカケテ"って言ってるぞ。どういう意味だ？」

となっているわけです。この段階ではまだ、どういうことを言っているのかはわかっていません。
あくまでも音として認識している状態です。

この自然言語処理と呼ばれるプロセスを通じてはじめて、AIスピーカーは

「音楽を再生すればいいんだな」と理解してくれるわけです。
自分が言ったことを理解してもらえた実感が湧いてきて、なんだか嬉しくなりますね。

内容が理解できたら、あとは要求通りに音楽をかけることでAIスピーカーは要求に応えてくれます。

人間なら(知っている言語であれば)、ここまで紹介してきた1.1~1.3の処理をあっという間にできてしまいます。
1.4を含めなかったのは、人間の場合は実行するかしないかが 気分次第 になることも多々あるからです。

しかも人間のさらにすごいところは、これらのプロセスを指示されなくてもできてしまうため、

以上の理由から、改めて発話内容の理解プロセスを意識する機会は新鮮に感じていただける方も多かったのではないでしょうか。

この記事が少しでも理解の助けになれば幸いです。