この記事は 京都大学人工知能研究会KaiRA Advent Calendar 2023 23日目の記事です。
はじめに
口で指示するだけで色々やってくれる機械があればラクだろうなぁ...
そんな人々の願望を叶えるAlexaが現れてから、どれくらい経つでしょうか。
人間の発した音声を聞き取って答えを返してくれる AIスピーカー は、今や日々の生活の中に当然のように避け込んでいます。
今回は前半でAIスピーカー内部のプロセスを簡単に紹介します。
1. AIスピーカーの内部プロセス
AIスピーカーは、主に下記4プロセスを実行することで我々の話す内容に応答しています。
- 音源分離 ( 雑音の除去 )
- 音声認識 ( 発話内容の認識 )
- 自然言語処理 ( 発話内容の解析 )
- 出力 ( 応答や家電操作など )
ひとつずつ見ていきましょう。
1.1 音源分離(雑音の除去)
一般家庭において、AIスピーカーはたいていノイズの混じった音を取り込みます。
たとえば洗い物をしていて手が塞がっている時、何か気分の上がる音楽をかけてほしい。
そんな時、きっとAlexaに向かって「気分の上がる音楽をかけて」と話しかけるはずです。
そんなとき水がジャージャー流れる音が入るのは当たり前。
「キブン "ジャー" ノアガ "ジャー" ルオンガク "ジャー" ヲカケテ "ジャージャー"」
こんなノイズ混じりの音声から我々のリクエストを聞き取ってくれないようでは、使いようがありません。
取り込んだ音声からノイズを除去し、ユーザの発する声を抽出する必要があるのです。
1.2 音声認識(発話内容の認識)
ノイズ除去ができてはじめて、 音声を認識 するプロセスに移ります。
つまり、ここでのAIスピーカーの脳内は
「お、"キブンノアガルオンガクヲカケテ"って言ってるぞ。どういう意味だ?」
となっているわけです。この段階ではまだ、どういうことを言っているのかはわかっていません。
あくまでも 音 として認識している状態です。
1.3 自然言語処理(発話内容の解析)
この自然言語処理と呼ばれるプロセスを通じてはじめて、AIスピーカーは
「音楽を再生すればいいんだな」と理解してくれるわけです。
自分が言ったことを理解してもらえた実感が湧いてきて、なんだか嬉しくなりますね。
1.4 出力(応答や家電操作など)
内容が理解できたら、あとは要求通りに音楽をかけることでAIスピーカーは要求に応えてくれます。
まとめ
人間なら(知っている言語であれば)、ここまで紹介してきた1.1~1.3の処理をあっという間にできてしまいます。
1.4を含めなかったのは、人間の場合は実行するかしないかが 気分次第 になることも多々あるからです。
しかも人間のさらにすごいところは、これらのプロセスを指示されなくてもできてしまうため、
以上の理由から、改めて発話内容の理解プロセスを意識する機会は新鮮に感じていただける方も多かったのではないでしょうか。
この記事が少しでも理解の助けになれば幸いです。