More than 3 years have passed since last update.

因子分析をExcelで理解する

Last updated at 2020-12-16Posted at 2018-12-11

主成分分析とは似て非なる手法として「因子分析」(Factor Analysis) があります。

主成分分析(PCA)では、説明変数に対して重み行列（固有ベクトル）a を線形結合した「主成分」 y_PC1を合成しました。ここで、主成分は、説明変数と同じ数だけ定義します。

y_PC1 = a_1,1 x₁ + a_1,2 x₂ + a_1,3 x₃ + a_1,4 x₄ + a_1,5 + ...

因子分析では、説明変数（観測変数）x が「因子」(factor) という潜在変数から合成されるという考え方に基づき、その因子得点 f と重み行列（因子負荷） w 、そして独自因子 e を特定します（主成分分析に独自因子という考え方はありません）。

x₁ = w_1,1 f₁ + w_1,2 f₂ + e₁
x₂ = w_2,1 f₁ + w_2,2 f₂ + e₂
x₃ = w_3,1 f₁ + w_3,2 f₂ + e₃
x₄ = w_4,1 f₁ + w_4,2 f₂ + e₄
x₅ = w_5,1 f₁ + w_5,2 f₂ + e₅
x₆ = w_6,1 f₁ + w_6,2 f₂ + e₆

因子得点 f は、各個体（サンプル）が独自に持つ潜在変数です。因子得点と因子負荷の線形和（w_1,1 f₁ + w_1,2 f₂ など）を「共通因子」と呼び、観測変数独自の「独自因子」e と足し合わせることで「観測変数」として観測できるという考え方です。因子の個数は説明変数よりも小さな個数を使うのが普通で、あらかじめ決めておく必要があります。

（ただし、共通因子や因子などの用語は、調べてみた限り異なる人が異なる定義をしているように見えますので、大変紛らわしいです。私の説明のほうが間違っている可能性もありますのでその際はご容赦ください。）

因子分析を行う便利なツールとして、Pythonで利用可能なScikit-learnなどがありますが、ここでは、因子分析がどのような手法か概観するためにExcelで計算してみたいと思います。

ワインのデータ

データは UC Irvine Machine Learning Repository から取得したものを少し改変しました。

https://github.com/maskot1977/ipython_notebook/blob/master/toydata/wine.xlsx

今回のデータは、20個のワインの銘柄の特徴が、６種類の「観測変数」(x₁, x₂, x₃, x₄, x₅, x₆) で表されています。この6変数を説明変数とします。

基準値

各列に対して、平均値を引いたものを標準偏差で割ります。

因子負荷量、因子得点、共通因子

因子負荷量 w は観測変数ごとに与えられる係数、因子得点は個体（サンプル）ごとに与えらえる係数で、それらの線形和が「共通因子」になります。因子分析の目的は、この因子負荷量と因子得点を求めることです。ここではまず、因子負荷量と因子得点を乱数で初期化しておき、その積を仮の共通因子とします。現時点ではランダムな数字で算出されたデタラメな数値が入ってます。