More than 5 years have passed since last update.

【論文シリーズ】多語彙音声認識に応用される深層テンソルNN

Posted at 2017-12-19

原文

The Deep Tensor Neural Network With Applications to Large Vocabulary Speech Recognition
Dong Yu, Senior Member, IEEE, LiDeng, Fellow, IEEE, and Frank Seide, Member, IEEE (2013)

1. 要約／背景

論文(Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition)で提唱したモデルを発展させたもの。
DNNのモデルで、テンソル空間を導入した。入力ベクトルを、2つのサブ空間に投射する。空間の間で相互作用を起こし、次の層へより抽出された特徴を送り出す。

2. 骨子の理論

これは隠れ層の2空間化(DP = Double Projection)の概略図である。DPは、各層で実行可能である。
(b)のパターンは、2投射空間それぞれから出力層へ引き渡され、出力層uは、テンソルになる。
(c)のパターンでは、2投射空間からの出力がクロネッカー積で統合され、次の入力層に引き渡される。(c)のパターンのほうが、BPの計算が容易である。

音声認識の場合、1つの空間に「音声検知」、もうひとつに「音波スペクトルのパターン」といった使い分けができる。

下層の空間の性質により、出力と次の入力の計算形式が決まる (下表)。

クラス分類の場合、例に違わず交差エントロピー誤差関数の極値を求めるアルゴリズムで評価される。

\bar{D} = \frac{1}{N}\sum_{x}D(x) = \frac{1}{N}\sum_{x}\sum_{y}\bar{p}(y|x)\log p(y|x)

差異は、パラメータの極値を求めるステップにある。
例として、l+1層からl層へのBPの式を挙げる。
第二空間に、第一空間固有の行列 $I(k1)$ を掛け合わせる(逆も同様)。

\frac{\partial (v^{l+1})^T}{\partial h_1^{l}} = \frac{ \partial {\large(}{\large(}h_2^{l}\otimes I_{K_1^l}{\large)}h_1^{l}{\large)}^T} {\partial h_1^{l}} = (h_2^{l})^T \otimes I_{K_1^{l}} \\
\frac{\partial (v^{l+1})^T}{\partial h_2^{l}} = \frac{ \partial {\large(}{\large(}I_{K_2^l}\otimes h_1^{l}{\large)}h_2^{l}{\large)}^{T}} 
{\partial h_2^{l}} = I_{K_2^{l}} \otimes (h_1^{l})^T

3. モデル適用例

SWB-30hrタスクと呼ばれる音声データのテストセットで音声認識テストを行った。(下表は結果)
前モデルのCD-DNN-HMMの誤差率が28.3％だったのに対し、2重投射のケースでは、27％まで改善した。
(最も複雑なモデルは、2000ユニットの隠れ層が4層、96X96の投射層が1層のモデルである。)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up