授業で従来の通常のPCAを拡張したProbablistic PCAを学んでいる。
従来のPCAに加えて、単なる次元の圧縮だけでなく、次元が削減された状態の情報ロスを含めて、不確実性を含めて記述できるのが興味深い。このProbablistic PCAは、単に不確実性の推定がついてくるため興味深いというだけでなく、Variational Auto Encoderとも密接に関わっているらしい。
とくにわからないこと
- 授業では2つのやりかたがでてきた。1つ目はAと$\sigma^2$を何やらClosed Formで求めること。2つ目のやり方は、EMアルゴリズムを用いてこの2つを求めることだ。2つ目は、Closed Formのやり方よりも計算効率が良いらしいがよくわからない。
- 2つのやり方に共通して、自分はそもそもAと$\sigma^2$の2つの推定すべきパラメータのうち、Aが何だったのかを覚えていない。
前提の整理 PCAから来る部分と、Probablisticc PCAの部分の区別
PCAから来る部分の復習
Given input $X$ (dxn), find a representation with lower dim.
$u$ (dxk)
- 低次元での表現 $u^TX$ (kxd) (dxn) -> (kxn)
- もとの次元での表現 $uu^TX$ (dxk) (kxn) -> (dxn)
PCAは $|| X - uu^TX||_{fro}$ を最小とするように $u^Tu=I$ のもとで $u$ を動かすことになります。
ここのノルムは通常のユークリッドノルムではなく、フロベニウスノルムになってるのに注意。これは、PCAの説明でよく出てくる、高次元の表現の中で、点群の相関によりベクトルが引けるとき、その引いたベクトルに射影した点群と、実際の点群の距離の和を表していると考えられる。
また、フロベニウスノルムは、そのノルムを取る対象の行列を$A$としたときの、 $A^TA$ の行列のトレースとしても表現できることがあるらしい。これはProbablistic PCAの授業の何処かで見た記憶がある。
これを解くと、covariance matrixのeiganvalue decomnpositionによる結果が出てくると授業では言われている。これは前のセメスターの授業で取り扱ったそうなので、所与の結果となっているようだ。
$\frac{1}{n}XX^{-1}=u\Lambda u^T$
この前の授業の部分も見る必要がある。
PPCAから来る部分 - latentの変数 Z
思い出してみれば、latentの変数 $z_i$ のようなものがでてきて、これの同時分布を考えるなど行っていた気がする。授業の教材を復讐してみて、Probablistic PCAの部分から来るらしく、もともとのPCAに起因するものでないことを理解した。
Standard normalな謎の $z_i$ を仮定する。
$z_i \sim N(0, I)$
ここの $i$ は $1,..., n$で動かす。
これをもとに条件づけをして次を考える。
$x_i | z_i \sim N(Az_i, \sigma^2I) $
ここで、 $A$はパラメータの行列で、 $\sigma^2$もよくわからないパラメータで、この両方を推定する必要がある。
次回確認する項目
- 授業では2つのやりかたがでてきた。1つ目はAと$\sigma^2$を何やらClosed Formで求めること。2つ目のやり方は、EMアルゴリズムを用いてこの2つを求めることだ。2つ目は、Closed Formのやり方よりも計算効率が良いらしいがよくわからない。このどちらも確認してみよう。
- 2つ目のやり方に関しては、EM アルゴリズムをそもそもわすれてしまった。