主成分分析って数学的にちゃんとしてるってのが嬉しい。
主成分分析は高い次元のデータを少ない次元へ要約する多変量解析手法のこと。
(Hotelling, 1933)
なわけだが、コツとしてはなるべく元々のデータが持っている情報量を落とさないように次元を下げるということができるってのが魅力。今日はそれで求められるいくつかの事実でとても重要と思う「主成分の分散が共分散行列の固有値と一致する」ことをちゃんと説明してみる(数学的に)。
なので興味ない人はもう読まなくて大丈夫ですw
主成分の定義
説明が次元の大きさに左右されないようにベクトルや行列の表記も使っていくがとりあえず計算しやすそうな2次元で説明する(2次元で主成分は使わんだろと言われそうなので)。
$\boldsymbol{X}=(X_1, X_2)'$を2次元確率ベクトルとする。この分散共分散行列$\Sigma$を
\Sigma = \begin{bmatrix}
\sigma_1^2 & \sigma_{12} \\\
\sigma_{21} & \sigma_2^2
\end{bmatrix}
とする。平均ベクトル $\boldsymbol{\mu}$は $\boldsymbol{0}$として一般性を失わない(w.l.o.g. なぜ?)
このとき、主成分分析では、確率変数の線形結合 $a_1X_1+a_2X_2 (\equiv Y)$を考えて、$(X_1,X_2)$の変動の大きさ(データの持っている情報)を出来るだけ多く取込むように係数を決める。つまり、$Y$の分散が最大になるように$a_1,a_2$の値を決定する。この結果得られた$Y$を第1主成分と呼び、これが$(X_1,X_2)$の全変動と比べて情報が不十分であれば(不十分ってどう判断する?)第1主成分と直交する(第1主成分が持っていない情報という意味)新たな線形結合である第2主成分を求めていく。これでも不十分なら第3主成分、、のように続けていけばよい。
あれ?
固有値の話出てきてなくね?
そうなんです。主成分の定義では固有値は全く関係ないのです。定義から主成分を求めていこうとするとこうやって順を追っていかなくてはならない。これが最終的に固有値と繋がるのだからすっきりした話になるわけさな。最近ではこの話がスパースな分析に繋がることになっているがそこでもこの理論展開が威力を発揮している。
あと、ここで定義が終わるが仮定されていることとしてはデータ(標本、sample)が無作為に得られていることであって、作られる主成分は線形結合だが、データの関係性は別に線形である必要はない。
これは主成分分析が非線形データ扱えないっておかしくね?にも書かれている。これ、多分捉え方のズレが大きくて線形推す人たちってデータに線形関係があれば次元圧縮の観点からは効果的というくらいの意味なのかなと。でも線形関係強いと主成分の解釈難しくなることおおいんじゃねぇのかなとかも思うから線形・非線形はあまり気にしなくてもよいってのが個人的感想。少なくとも定義式見ても問題はない。
この続きでは実際に固有値との関係見ていくが、それはこの記事編集か別の記事で。