DeepLearning
音声認識
深層学習

【論文シリーズ】多語彙音声認識に応用される深層テンソルNN

原文

The Deep Tensor Neural Network With Applications to Large Vocabulary Speech Recognition
Dong Yu, Senior Member, IEEE, LiDeng, Fellow, IEEE, and Frank Seide, Member, IEEE (2013)

1. 要約/背景

  • 論文(Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition)で提唱したモデルを発展させたもの。
  • DNNのモデルで、テンソル空間を導入した。入力ベクトルを、2つのサブ空間に投射する。空間の間で相互作用を起こし、次の層へより抽出された特徴を送り出す。

2. 骨子の理論

151207224233_1.JPG

これは隠れ層の2空間化(DP = Double Projection)の概略図である。DPは、各層で実行可能である。
(b)のパターンは、2投射空間それぞれから出力層へ引き渡され、出力層uは、テンソルになる。
(c)のパターンでは、2投射空間からの出力がクロネッカー積で統合され、次の入力層に引き渡される。(c)のパターンのほうが、BPの計算が容易である。

音声認識の場合、1つの空間に「音声検知」、もうひとつに「音波スペクトルのパターン」といった使い分けができる。

下層の空間の性質により、出力と次の入力の計算形式が決まる (下表)。

151207224233_2.JPG

クラス分類の場合、例に違わず交差エントロピー誤差関数の極値を求めるアルゴリズムで評価される。

\bar{D} = \frac{1}{N}\sum_{x}D(x) = \frac{1}{N}\sum_{x}\sum_{y}\bar{p}(y|x)\log p(y|x)

差異は、パラメータの極値を求めるステップにある。
例として、l+1層からl層へのBPの式を挙げる。
第二空間に、第一空間固有の行列 $I(k1)$ を掛け合わせる(逆も同様)。

\frac{\partial (v^{l+1})^T}{\partial h_1^{l}} = \frac{ \partial {\large(}{\large(}h_2^{l}\otimes I_{K_1^l}{\large)}h_1^{l}{\large)}^T} {\partial h_1^{l}} = (h_2^{l})^T \otimes I_{K_1^{l}} \\
\frac{\partial (v^{l+1})^T}{\partial h_2^{l}} = \frac{ \partial {\large(}{\large(}I_{K_2^l}\otimes h_1^{l}{\large)}h_2^{l}{\large)}^{T}} 
{\partial h_2^{l}} = I_{K_2^{l}} \otimes (h_1^{l})^T

3. モデル適用例

SWB-30hrタスクと呼ばれる音声データのテストセットで音声認識テストを行った。(下表は結果)
前モデルのCD-DNN-HMMの誤差率が28.3%だったのに対し、2重投射のケースでは、27%まで改善した。
(最も複雑なモデルは、2000ユニットの隠れ層が4層、96X96の投射層が1層のモデルである。)

151207224233_6.JPG