音声認識 基礎
モチベーション
- 機械学習によって音声認識を行っていても,何を弄っているのかがよく分からない.そもそも音とは何なのだろうか.
人間による音の知覚
- 音,すなわち空気の振動が外耳道を通って鼓膜を震わせる.
- 耳小骨が鼓膜の振動を増幅させて内耳に伝える
- 内耳の中の蝸牛の基底膜を振動させる
- 振動の周波数によって,基底膜上の振動の位置が異なる -> 基底膜上の位置ごとの振動という形で周波数ごとの振動成分に分解される.
- 基底膜上の細胞が刺激されて脳へと伝わる
-> フーリエ変換によって,蝸牛の基底膜と同様の働きを実現している.
音声認識モデルの流れ
1. 音響モデル
音声特徴量と音素列の間の確率を計算するモデル.
2. 発音辞書
音素列と単語の対応を扱うモデル
3. 言語モデル
ある単語に対して,その単語が発話される確率を計算するモデル.