【論文シリーズ】頑健性のあるボルツマンマシン #DeepLearning

原文

顔認識とノイズ除去のための頑健的なボルツマンマシン (Robust Boltzmann Machines for Recognition and Denoising)
Yichuan Tang (2012)

1. 要約／背景

ボルツマンマシンで、欠損画像からも顔認識できるモデルを構築した。
- 積算ゲートが特異な画像パターンも吸収する。
- ノイズの統計的分布とパターン遮蔽物は、教師なし学習から導かれる
- 認識のアウトプットは、モデルの事後分布に従う。

2. 骨子の理論

(1)エネルギー関数
ノイズ項 $\tilde{v}$ と二項分類項 $s$(可視変数が $h$グループと $g$ グループのどちらかと繋がる)を加えたモデルになる。

\begin{align}
E_{RoBM}({\bf v}, {\bf \tilde{v}}, {\bf s}, {\bf h}, {\bf g}) &= \frac{1}{2}\sum_{i}\frac{\gamma^2_i}{\sigma^2_i}s_i(v_i - \tilde{v_i})^2 - \sum_{i}d_is_i - \sum_{k}e_kg_k \\
&- \sum_{i,k}U_{ik}s_ig_k + \frac{1}{2}\sum_{i}\frac{(v_i - b_i)^2}{\sigma^2_i} - \sum_{j}c_ih_i \\
&- \sum_{ij}W_{ij}v_ih_j + \frac{1}{2}\sum_{i}\frac{(\tilde{v}_i - \tilde{b}_i)^2}{\tilde{\sigma}^2_i}
\end{align}

画像データにおけるノイズが入った状態(v~)は次のようなイメージである。

ノイズ変数の事後分布は、直積に近似的に分解される。

p(\tilde{v}_i|{\bf h},{\bf g}) = \prod_i\big\{\pi_i \mathcal{N}(\tilde{v}_i|\tilde{b}_i;\tilde{\sigma}^2_i) + (1-\pi_i)\mathcal{N}(\tilde{v}_i|\mu^{new}_i;\frac{\sigma^2_i\tilde{\sigma}^2_i}{\tilde{\sigma}^2_i + \sigma^2_i})\big\}

(3)サンプリング
隠し系のサンプリング

p({\bf g}, {\bf h}| {\bf v}, {\bf s}, {\bf \tilde{v}}) = p({\bf g}, {\bf h}| {\bf v}, {\bf s}) = p({\bf h}| {\bf v})p({\bf g}|{\bf s})

可視系のサンプリング

p({\bf v}, {\bf s}| {\bf g}, {\bf h}, {\bf \tilde{v}}) = \prod_ip(v_i, s_i| {\bf g}, {\bf h}, {\bf \tilde{v}}) = \prod_ip(v_i| s_i, {\bf g}, {\bf h}, {\bf \tilde{v}})p(s_i| {\bf g}, {\bf h}, {\bf \tilde{v}})

いずれも、条件項にノイズ変数が入っている。

3. モデル適用例

Tronto Face Databaseに登録されている画像に対して、60000枚で訓練したのち、2000枚でテストした。
画像にランダムノイズを入れたものと部分欠損(block occlusion)したパターンを加え、その除去率を計測した。
ベンチマークの手法に対して、RoBMモデルの除去パフォーマンスは良好だった。