# 1.はじめに
統計検定一級に向けて因子分析の勉強をしていたところしっかり定式化しているサイトが無かったのでまとめてみる.
具体例などではなく数式で定式化する.
勉強中なので間違いがあればぜひご意見を頂きたい.
#2.因子分析のモデル
観測される変数$x_{1},...,x_{p}$を要素とする確率ベクトル$\mathbf{x}=(x_{1},..,x_{p})'$を定義し,
E[\mathbf{x}]=\mathbf{\mu}, \quad E[(\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})']=\mathbf{\Sigma}
とすると,因子分析のモデル式は
\mathbf{x}=\mathbf{\mu}+\mathbf{\Lambda{f}}+\mathbf{e} \tag{2.1}
と定義される.
このモデル式の中で観測されているのは$\mathbf{x}$だけであることに留意されたい.
要素で定式化すると
x_{j}=\mu_{j}+\lambda_{j1}f_{1}+\lambda_{j2}f_{2}+,..,+\lambda_{jm}f_{m}+e_{j} \qquad(j=1,..,p) \tag{2.2}
となる.
ここで$\mathbf{f}=(f_{1},..,f_{m})'$と$\mathbf{e}=(e_{1},..,e_{p})'$は観測不可能な潜在的な確率変数を要素とするベクトルであり,$\Lambda=(\lambda_{ik})$は$X_{i}$の$f_{k}$への回帰係数を要素とするp×nの行列とする.
行列$\mathbf{\Lambda}$の要素$\lambda_{ik}$は$x_{i}$の$f_{k}$への因子負荷量と呼ばれる.ベクトル$\mathbf{f}$の要素$f_{k}$は共通因子と呼ばれる.共通因子と呼ばれるのは$f_{k}$が$x_{1}$から$x_{p}$まで全てに共通の変動要因であることに由来する.共通因子に対してベクトル$\mathbf{e}$の要素$e_{i}$は独自因子と呼ばれる.通常の統計モデルでは誤差として扱われる部分である.
ここで共通因子に関して
E[\mathbf{f}]=\mathbf{0},\quad E[\mathbf{f}\mathbf{f}']=\mathbf{\Phi} \tag{2.3}
である.ここで共通因子の分散共分散行列が正定値行列である事が仮定される.すなわち$\mathbf{\Phi}>\mathbf{0}$である.
また独自因子に関して
E[\mathbf{e}]=\mathbf{0},\quad E[\mathbf{e}\mathbf{e}']=\mathbf{\Psi} \tag{2.4}
であり,
E[e_{i}e_{j}]=0 \qquad(i\neq j) \tag{2.5}
すなわち異なる独自因子は無相関であることを仮定する.この仮定より独自因子の共分散行列$\mathbf{\Psi}$は対角行列である.$\mathbf{\Psi}$の対角要素$\phi_{i}$は独自因子$e_{i}$の分散である.また
E[\mathbf{f}\mathbf{e}']=\mathbf{0} \tag{2.6}
すなわち共通因子と独自因子が無相関であることを仮定する.
(2.1)式において$m$個の共通因子の線形結合を
t_{i}=\lambda_{i1}f_{1}+...+\lambda_{im}f_{m} \qquad(i=1,..p) \tag{2.7}
とし,$t_{i}$を要素とする確率変数ベクトルを$\mathbf{t}=(t_{1},..,t_{p})'$とすると,$\mathbf{x}$は
\mathbf{x}=\mathbf{\mu}+\mathbf{t}+\mathbf{e} \tag{2.8}
と表される.確率ベクトル$\mathbf{t}$の共分散行列を
E[\mathbf{t}\mathbf{t}']=\mathbf{H}=(\eta_{ij}) \tag{2.9}
とおく.(2.6)式より
E[t_{i}e_{j}]=0 \qquad(i,j=1,..,p)\tag{2.9.1}
である.よって観測変数の分散共分散行列$\mathbf{\Sigma}=(\sigma_{ij})$は
\mathbf{\Sigma}=\mathbf{H}+\mathbf{\Psi} \tag{2.9.2}
と分解される.(2.5)式より$\mathbf{\Psi}$は対角行列であるので
\sigma_{ij}=\eta_{ij} \qquad(i \neq j)
となる.すなわち観測変数$x_{i}$と$x_{j}$の共分散$\sigma_{ij}$が共通因子の線形結合$t_{i}$と$t_{j}$の共分散$\eta_{ij}$と一致する.また(2.92)式より$x_{i}$と$t_{i}$の分散をそれぞれ$\sigma_{i}^2$,$\eta_{i}^2$とすると
\sigma_{i}^2=\eta_{i}^2+\psi_{i} \qquad (i=1,..,p)
となるので観測変数の分散が2つの成分の和に分解されることも容易にわかる.共通因子の線形結合$t_{i}$の分散$\eta_{i}^2$の分散は共通分散と呼ばれる.共通分散を観測変数の分散で割ったものを
h_{i}^2=\frac{\eta_{i}^2}{\sigma_{i}^2}
は共通性(communality)と呼ばれる.これと対を成すように観測変数の分散に占める 独自因子の分散の割合
\frac{\psi_{i}}{\sigma_{i}^2}
を独自性(uniqueness)と呼ばれる.
明らかに
\mbox{共通性}+\mbox{独自性}=1
を満たす.
共通因子の線形結合$t_{i}$を要素に持つベクトルは
\mathbf{t}=\mathbf{\Lambda f}
と表現されるので,その共分散行列$\mathbf{H}$は
\mathbf{H}=E[\mathbf{t}\mathbf{t}']=\mathbf{\Lambda} {\rm E}[\mathbf{ff}']\mathbf{\Lambda}'=\mathbf{\Lambda}\mathbf{\Phi}\mathbf{\Lambda}'
と表される.したがって観測変数の分散共分散行列$\mathbf{\Sigma}$は
\mathbf{\Sigma}=\mathbf{\Lambda \Phi \Lambda'}+\mathbf{\Psi}
となり,非負低値行列と正定値行列に分解される.これを共通因子分解と呼ぶ.
#3. 因子分析モデルの性質
これ以降は余力があればいつか..