More than 5 years have passed since last update.

主成分分析のあれこれ

Posted at 2017-01-31

主成分分析のあれこれ

主成分分析の拡張である確率的主成分分析，ベイズ的主成分分析，カーネル主成分分析の比較

主成分分析（PCA）

高次元のデータを低次元に次元削減する方法
色々求め方はあるが，特異値分解と解釈するのが早い

$$ X = UDV^T $$

$X$: サンプル数×次元数の元データ
$U$: ×次元数のユニタリー行列
$D$: 次元数×次元数の対角行列（対角成分は固有値）
$V^T$: 次元数×次元数の固有ベクトル行列（行が１つの固有ベクトル）

さらに次元削減のベクトルは

$$ X_{pca} = XV_{pca} $$
で求めることができる．
ただし$V_{pca}$は行列Vから削減した次元数から作成する．（2次元に次元削減したのなら，$V_{pca} = V[:,[0,1]]$）

確率的主成分分析（Probabilistic PCA）

ガウス分布を用いて確率的に次元削減を行う
求め方は複数あるが，EMアルゴリズムで求める場合，
E-stepでは

M = W^TW+\sigma^2I \\
E[z_n] = M^{-1}W^T(x_n-\bar{x}) \\
E[z_{n}z_{n}^T]=\sigma^2M^{-1}+E[z_n]E[z_n]^T

ただし，

$M$: 削減後の次元数×削減後の次元数の行列
$W$: 元の次元数×削減後の次元数の行列（ランダムに初期化）
$\sigma^2$: スカラー
$I$: 単位行列
$E[z_n]$: n番目のデータの次元削減後のベクトル
$x_n$: n番目のデータの次元削減前のベクトル
$\bar{x}$: 次元削減前のデータの平均ベクトル
$E[z_nz_n^T]$: 削減後の次元数×削減後の次元数の行列

M-stepでは

W = \bigl[\sum_{n=1}^{N}(x_n-\bar{x})E[z_n]^T\bigr]\bigl[\sum_{n=1}^{N}E[z_nz_n^T]\bigr]^{-1}\\
\sigma^{2} = \frac{1}{ND}\sum_{n=1}^{N}\bigl\{||x_n-\bar{x}||^2 - 2E[z_n]^TW^T(x_n-\bar{x}) + Tr(E[z_nz_n^T]W^TW)\bigr\}

ただし，

N: データ数
D: 元の次元数

で求めることができる．

ベイズ的主成分分析（Bayes PCA）

ガウス分布にハイパーパラメータを導入してベイズ推定を行う．

Probabilistic PCAの場合と比較して，M-stepが異なり，

\alpha_i = \frac{D}{w_i^Tw_i} \\
W = \bigl[\sum_{n=1}^{N}(x_n-\bar{x})E[z_n]^T\bigr]\bigl[\sum_{n=1}^{N}E[z_nz_n^T] + \sigma^2A \bigr]^{-1}\\
\sigma^{2} = \frac{1}{ND}\sum_{n=1}^{N}\bigl\{||x_n-\bar{x}||^2 - 2E[z_n]^TW^T(x_n-\bar{x}) + Tr(E[z_nz_n^T]W^TW)\bigr\}

ただし，