LoginSignup
9
7

More than 5 years have passed since last update.

【論文シリーズ】音声認識の深層学習理論(DBN + HMM)

Last updated at Posted at 2016-09-02

原文

多語彙音声認識のための文脈依存的かつ事前学習付きの深層ニューラルネットワーク (Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition)
George E. Dahl, Dong Yu, Senior Member, IEEE, Li Deng, Fellow, IEEE, and Alex Acero, Fellow, IEEE (2012)

1. 要約/背景

  • 多語彙音声認識において、DBN (Deep Belief Network)による事前学習隠れマルコフモデルを組み合わせた学習器を開発した。
  • 本稿発表前までの主流は、混合ガウスモデルを事前学習に用いるスタイルだったが、それをDBNに置き換えた。DBNは、事前学習のみに用いる点も特徴である。

2. 骨子の理論

(1)DBNによる事前学習

積層RBMの学習で表現する。音声データは実数連続値を取るので、Gaussian RBMを用いる。

P({\bf v}|{\bf h}) = N({\bf v}; {\bf b} + {\bf h}^T{\bf W}^T, I)

(2)HMMによる信号の並びの予測

(1)の事前学習で抽出された特徴量は、繰り返し想起された確率モデルに当てはめられる(Generative Model; 生成モデル)。当てはめられた確率分布のうち、尤もらしいものが学習結果により決定される。
確率分布の型は、隠れマルコフモデルに基づく。

HMMで表現していることは、3音素(Senone)が「ある遷移確率」に制御されて移り変わる挙動である。

当てはまりの良いときのパラメータwが新しいパラメータとして更新される;

\hat w = \arg\max_w p(w|{\bf x}) = \arg\max_w p({\bf x}|w)p(w)/p({\bf x})

151207223458_3.JPG

3. モデル適用例

5層の隠れ層・2000超のユニットを備えたDNNと、GMMによる性能の違いを確かめた。

151207223458_4.JPG

目覚しい変化があるとは言えないが、若干の変化は認められた。
課題は、計算時間である。
並列処理が難しい構造のため、時間省力化が難しい。

9
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
7