Deep Variational Information Bottleneck のメモtt #ニューラルネットワーク

概要

1999年にTishbyらによって提案されたInformation Bottleneckを変分近似。ニューラルっとでモデル化。VIBは一種の正則化として機能し、汎化性能や敵対的攻撃に対する頑健性が向上する。

  X -> Z -> Y

を考える。Xは入力。Zは隠れ表現、Yは出力。クラス分類タスクではYはラベルになる。ここで、Yを求めるために必要な情報を残したまま、可能な限りZを圧縮表現としたい。
これを実現するために下を最小化する。

R_{IB}(\theta) =  I(X,Y;\theta) - \beta I(Z, X; \theta)

Yに関する情報を保ちながら、Xのことを可能な限り忘れたY、が目的。

VAEでは、X->Z->X'が目的で、XとX'の差分と、Zと事前分布のKLダイバージェンスの和を最小化する。

VIBの場合は、X->Z->Yが目的で、Yの予測ロスと、Zと事前分布のKLダイバージェンスの重み付き和を最小化する。この際に係数として指定する$\beta$を調整することで、ボトルネックのサイズを調整する。

CNNを使わない、FCNNを用いた評価。他の正則化手法よりも良いと主張。Zの次元を2次元と、256次元でテスト。2次元のほうは多変量正規分布を事前分布につかっているが、256次元のほうは独立。

2次元の場合で、埋め込み空間をプロット。中心$\mu$で、$sigma$で楕円を描いている

0を1と誤認させる攻撃で評価。L0は変化させたピクセルの数、L1,L2はそれぞれマンハッタン距離と、ユークリッド距離を最小にするように攻撃する手法。

左は決定的なベースラインに対する相対。右はドロップアウト込み。ドロップアウトがあると頑健性が向上するが、ベータが大きい領域では、VIBが良いと主張。