Goodfellow,Bengio,CourvilleさんのDeep learning本の13章のまとめ
- 重要と思った部分だけ独断で抽出しています.
- 本当にメモ書き程度なので本を読まずにいきなりこれを読んでもわからない可能性がかなりあります.すみません.
- 間違っている記述があるかもしれません.
- 心眼で書いている部分があるかもです.
13 Linear Factor Models
linear factor modelはstochasicなlinear decoderである.
またhを潜在変数するとき
$x = Wh + b +noise$
となる. hのpriorやnoiseののせ方の違いがバリエーションとなる.
13.1 Probabilistic PCA and Factor analysis
- Factor analysis ではhはunit variance Gaussianとなる.
そしてnoiseは対角行列を分散にしたGaussianとなる.
$x\sim N(x;b,WW^{T}+\phi)$($\phi$は対角行列)
となる. - Probabilistic PCAではそれぞれの成分の分散が同じと仮定する.よって
$x\sim N(x;b,WW^{T}+\sigma ^{2}I)$
となる. - 分散が0に近づく時Probabilistic PCAはPCAに近づいていく.
13.2 ICA
- 最も古いrepresentation learning algorithmである.
潜在変数をできるだけindependentにしたいという信号分解のモチベーションから生まれた. - $x=Wh$という関係がある.($x$は観測変数,$h$は潜在変数) あと$p(h)$が与えられている. ($p(h)$は独立) このとき$W$を求めたいというのがICA.
- またICAは生成モデルとは言えない.なぜならxとh間の関係を求めるし,p(h)は仮定するがp(X)は仮定しないから.
そもそも生成モデルとしてのモチベーションはない. - ICAの重要な特徴としてpriorをnon-Gaussianとすることがある. なぜならGaussianにするとWが定まらないから.
13.3 Slow Feature Analysis
- 時系列から不偏な特徴量を抽出しようというモチベーションで作られたlinear factor modelである.
- Slowness principle によると下のような正則化項をつける.
$ \lambda \sum_{t} L(f(x^{t+1}),f(x^{t}))$
- Lとしては2乗誤差とかが選ばれる. 実際,不偏にしたいモチベーションのある正則化項である.
13.4 Sparse Coding
- Unsupervised feature learningとしてかなり研究されてきたもの.
- $p(x|h) = N(x;Wh+b,\frac{1}{\beta}I)$で$p(h)$というpriorが与えられている.
このとき事後確率$p(h|x)$を最大化するhを求めたい. - hのpriorとしてfactorized Laplaceやstudent-tが選ばれる.
- 最尤法は直接扱えないため繰り返しのアルゴリズムとなる.
変分ベイズの文脈で正当化される.(hの近似分布としてDirac分布を想定する) - PCAと違ってparametricなencoderを用いるのではなくposterior最大化の文脈で$h$を求める.
- モデルをtrainするためにはhの最小化とWの最小化を繰り返すことになる.
- またgenerative modelとしてはsparseにならずにfeature extractorとしてsparseになることに注意.
- Non-parametricなencoderとしての利点は特徴量抽出の面がある.一方, よくない点としてxが与えられてhを計算するときに多大な計算量を要することがある.
- またgenerative modelとしてはあまりよくないことに注意. priorをnon-factorialにするとかdeepにしなければいけない.
13.5 Manifold Interpretation of PCA
- PCAにはreconstruction error最小化としての面と潜在変数の分散の最大化という解釈がある.
参考文献