More than 5 years have passed since last update.

Goodfellow,Bengio,CourvilleさんのDeep Learning本の13章のまとめ

Last updated at 2016-03-25Posted at 2016-03-21

Goodfellow,Bengio,CourvilleさんのDeep learning本の13章のまとめ

linear factor modelはstochasicなlinear decoderである.
またhを潜在変数するとき

$x = Wh + b +noise$

となる. hのpriorやnoiseののせ方の違いがバリエーションとなる.

Factor analysis ではhはunit variance Gaussianとなる.
そしてnoiseは対角行列を分散にしたGaussianとなる.
$x\sim N(x;b,WW^{T}+\phi)$($\phi$は対角行列)
となる.
Probabilistic PCAではそれぞれの成分の分散が同じと仮定する.よって
$x\sim N(x;b,WW^{T}+\sigma ^{2}I)$
となる.
分散が0に近づく時Probabilistic PCAはPCAに近づいていく.

最も古いrepresentation learning algorithmである.
潜在変数をできるだけindependentにしたいという信号分解のモチベーションから生まれた.
$x=Wh$という関係がある.($x$は観測変数,$h$は潜在変数) あと$p(h)$が与えられている. ($p(h)$は独立) このとき$W$を求めたいというのがICA.
またICAは生成モデルとは言えない.なぜならxとh間の関係を求めるし,p(h)は仮定するがp(X)は仮定しないから.
そもそも生成モデルとしてのモチベーションはない.
ICAの重要な特徴としてpriorをnon-Gaussianとすることがある. なぜならGaussianにするとWが定まらないから.

$ \lambda \sum_{t} L(f(x^{t+1}),f(x^{t}))$

Unsupervised feature learningとしてかなり研究されてきたもの.
$p(x|h) = N(x;Wh+b,\frac{1}{\beta}I)$で$p(h)$というpriorが与えられている.
このとき事後確率$p(h|x)$を最大化するhを求めたい.
hのpriorとしてfactorized Laplaceやstudent-tが選ばれる.
最尤法は直接扱えないため繰り返しのアルゴリズムとなる.
変分ベイズの文脈で正当化される.(hの近似分布としてDirac分布を想定する)
PCAと違ってparametricなencoderを用いるのではなくposterior最大化の文脈で$h$を求める.
モデルをtrainするためにはhの最小化とWの最小化を繰り返すことになる.
またgenerative modelとしてはsparseにならずにfeature extractorとしてsparseになることに注意.
Non-parametricなencoderとしての利点は特徴量抽出の面がある.一方, よくない点としてxが与えられてhを計算するときに多大な計算量を要することがある.
またgenerative modelとしてはあまりよくないことに注意. priorをnon-factorialにするとかdeepにしなければいけない.