原文
教師なし多段特徴学習による学習歩行者検知 (Pedestrian Detection with Unsupervised Multi-Stage Feature Learning)
Pierre Sermanet (2013)
1. 骨子の理論
(1)教師なし学習
学習の骨子は畳み込みニューラル・ネットワーク(CNN)である。
ただし、事前に教師なし学習で、層を積み上げている点に特徴がある。
このような事前学習の方法を貪欲法 (Greedy Method) という。
単層の学習器には、スパース正則化自己符号化器を用いる。
これらを合わせて、畳込み予測スパース分解モデル(Convolutional Predictive Sparse Decomposition; CPSD)と総称される。
パラメータの更新は、誤差項と正則化項の重ねあわせで評価される。
f(x;g,k,b) = \tilde z = \{ \tilde z_j \}_{j = 1..n} \\
\tilde z_j = g_j \times \tanh(x \otimes k_j + b_j)
CPSD誤差関数は、畳込み項と予測項の重ねあわせである。
\mathbb{E}_{CPSD} = \mathbb{E}_{ConvSC} + \beta\mathbb{E}_{Pred} \\
\mathbb{E}_{ConvSC} = \big\| x - \sum_{j} D_j \big\|_{2}^2 + \lambda \| z\|_1 \\
\mathbb{E}_{Pred} = \| z^{*} - f(x;g,k,b) \|_{2}^2
自己符号化器の出力は、元の入力項との誤差で評価される。
\mathbb{E}_{ConvSC} = \sum_{i}\big\| x_i - \sum_{j \in \bar P _i} D_{i,j} \otimes z_j\big\|_{2}^2 + \lambda \| z\|_1 \\
※サンプリング法にブートストラップ法を用いる。負の項目も満遍なく付加して、学習効率を高めるためである。
3. モデル適用例
INRIAという歩行者のデータセットを用いて誤差率を測定した。
教師ありのみ、かつ単層の学習では、誤差率23.4%、に対して、教師なしかつ多層の学習では、誤差率10.6%に改善した。