原文
1. 要約/背景
- 論文(Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition)で提唱したモデルを発展させたもの。
- DNNのモデルで、テンソル空間を導入した。入力ベクトルを、2つのサブ空間に投射する。空間の間で相互作用を起こし、次の層へより抽出された特徴を送り出す。
2. 骨子の理論
これは隠れ層の2空間化(DP = Double Projection)の概略図である。DPは、各層で実行可能である。
(b)のパターンは、2投射空間それぞれから出力層へ引き渡され、出力層uは、テンソルになる。
(c)のパターンでは、2投射空間からの出力がクロネッカー積で統合され、次の入力層に引き渡される。(c)のパターンのほうが、BPの計算が容易である。
音声認識の場合、1つの空間に「音声検知」、もうひとつに「音波スペクトルのパターン」といった使い分けができる。
下層の空間の性質により、出力と次の入力の計算形式が決まる (下表)。
クラス分類の場合、例に違わず交差エントロピー誤差関数の極値を求めるアルゴリズムで評価される。
\bar{D} = \frac{1}{N}\sum_{x}D(x) = \frac{1}{N}\sum_{x}\sum_{y}\bar{p}(y|x)\log p(y|x)
差異は、パラメータの極値を求めるステップにある。
例として、l+1層からl層へのBPの式を挙げる。
第二空間に、第一空間固有の行列 $I(k1)$ を掛け合わせる(逆も同様)。
\frac{\partial (v^{l+1})^T}{\partial h_1^{l}} = \frac{ \partial {\large(}{\large(}h_2^{l}\otimes I_{K_1^l}{\large)}h_1^{l}{\large)}^T} {\partial h_1^{l}} = (h_2^{l})^T \otimes I_{K_1^{l}} \\
\frac{\partial (v^{l+1})^T}{\partial h_2^{l}} = \frac{ \partial {\large(}{\large(}I_{K_2^l}\otimes h_1^{l}{\large)}h_2^{l}{\large)}^{T}}
{\partial h_2^{l}} = I_{K_2^{l}} \otimes (h_1^{l})^T
3. モデル適用例
SWB-30hrタスクと呼ばれる音声データのテストセットで音声認識テストを行った。(下表は結果)
前モデルのCD-DNN-HMMの誤差率が28.3%だったのに対し、2重投射のケースでは、27%まで改善した。
(最も複雑なモデルは、2000ユニットの隠れ層が4層、96X96の投射層が1層のモデルである。)