#1. 要約
重回帰分析の回帰係数の分散が$$Var(\widehat{\beta})=(X^TX)^{-1}\sigma^2$$となることを示します.
#2. 証明
Xを($n\times p$)のデータ行列,yを($n\times 1$)の従属変数ベクトル,$\beta$を($p\times 1$)の係数ベクトル,eを($n\times 1$)の誤差ベクトル(これだけ確率変数ベクトルです.)とします.ここで,$$e\sim N(0_n,\sigma^2I_n)$$であり,誤差は各個体間で独立であることがわかります.前回の記事から重回帰分析の係数の最小二乗推定量は$$\widehat{\beta}=(X^TX)^{-1}X^Ty$$であることが明らかになっています.$\widehat{\beta}$の期待値は
\begin{eqnarray}
E[\widehat{\beta}]&=&E[(X^TX)^{-1}X^Ty]\\
&=&E[(X^TX)^{-1}X^T(X\beta+e)]\\
&=&E[(X^TX)^{-1}X^TX\beta+(X^TX)^{-1}X^Te]\\
&=&E[(X^TX)^{-1}X^TX\beta]+E[(X^TX)^{-1}X^Te]\\
&=&E[\beta]+(X^TX)^{-1}X^TE[e]\\
&&(\because (X^TX)^{-1}X^TX=I_p)\\
&=&E[\beta]\ (\because E[e]=0_n)\\
&=&\beta
\end{eqnarray}
から,$\beta$となることがわかりました(重回帰分析の最小二乗推定量が不偏推定量となった!).次に$\widehat{\beta}$の分散を計算します.
\begin{eqnarray}
Var[\widehat{\beta}]&=&E[(\widehat{\beta}-E[\widehat{\beta}])(\widehat{\beta}-E[\widehat{\beta}])^T]\\
&=&E[(\widehat{\beta}-\beta)(\widehat{\beta}-\beta)^T]\\
&=&E[\widehat{\beta}\widehat{\beta}^T-\widehat{\beta}\beta^T-\beta\widehat{\beta}^T+\beta\beta^T]\\
&=&E[\widehat{\beta}\widehat{\beta}^T]-2E[\beta\widehat{\beta}^T]+E[\beta\beta^T]\tag{*}
\end{eqnarray}
各項それぞれで展開します.先ずは第1項について,
\begin{eqnarray}
E[\widehat{\beta}\widehat{\beta}^T]&=&E[(X^TX)^{-1}X^Tyy^TX(X^TX)^{-1}]\\
&=&(X^TX)^{-1}X^TE[yy^T]X(X^TX)^{-1}\\
&=&(X^TX)^{-1}X^TE[(X\beta+e)(X\beta+e)^T]X(X^TX)^{-1}\\
&=&(X^TX)^{-1}X^TE[X\beta\beta^TX^T+2X\beta e^T+ee^T]X(X^TX)^{-1}\\
&=&(X^TX)^{-1}X^TX\beta\beta^TX^TX(X^TX)^{-1}+2(X^TX)^{-1}X^TX\beta E[e^T]X(X^TX)^{-1}+(X^TX)^{-1}X^TE[ee^T]X(X^TX)^{-1}\\
&=&\beta\beta^T+\sigma^2(X^TX)^{-1}\tag{1}\\
&&(\because e\sim N(0_n,\sigma^2I_n),E[ee^T]=Var[e]=\sigma^2I_n)
\end{eqnarray}
次に第2項について
\begin{eqnarray}
E[\beta\widehat{\beta}^T]&=&\beta E[y^TX(X^TX)^{-1}]\\
&=&\beta E[y^T]X(X^TX)^{-1}\\
&=&\beta E[\beta^TX^T+e^T]X(X^TX)^{-1}\\
&=&\beta\beta^TX^TX(X^TX)^{-1}+\beta E[e^T]X(X^TX)^{-1}\\
&=&\beta\beta^T\tag{2}\\
&&(\because E[e^T]=E[e]^T=0_n^T)
\end{eqnarray}
最後に第3項について,
\begin{eqnarray}
E[\beta\beta^T]&=&\beta\beta^T\tag{3}\\
&&(\because \beta\ is\ not\ random\ variable.)
\end{eqnarray}
以上の(1)~(3)から(*)は,
\begin{eqnarray}
(*)&=&\beta\beta^T + \sigma^2(X^TX)^{-1} -2\beta\beta^T + \beta\beta^T\\
&=&(X^TX)^{-1}\sigma^2
\end{eqnarray}
となります.よって重回帰分析の回帰係数の最小二乗推定量は,$$\widehat{\beta}\sim N(\beta,(X^TX)^{-1}\sigma^2)$$に従うことがわかりました.
#おまけ
$Var[\widehat{\beta}]$の展開を
\begin{eqnarray}
Var[\widehat{\beta}]&=&Var[(X^TX)^{-1}X^Ty]\\
&=&(X^TX)^{-1}X^TVar[y]X(X^TX)^{-1}\\
&=&(X^TX)^{-1}X^T\sigma^2I_nX(X^TX)^{-1}\\
&=&\sigma^2(X^TX)^{-1}
\end{eqnarray}
と書いた方がスッキリしてていいかも.途中で,
\begin{eqnarray}
E[y] &=& E[X\beta+e]\\
&=&X\beta\\
Var[y] &=& E[(y-E[y])(y-E[y])^T]\\
&=& E[(X\beta+e-X\beta)(X\beta+e-X\beta)^T]\\
&=& E[ee^T]\\
&=& Var[e]=\sigma^2I_n\\
&&(\because E[e]=0_n,E[ee^T]=E[(e-0_n)(e-0_n)^T]=Var[e])
\end{eqnarray}
となること,つまり$y\sim N(X\beta, \sigma^2I_n)$となることを利用しています.
#参考文献
Hastie, Trevor, Tibshirani, Robert, Friedman, Jerome(2009).The elements of statistical learningのp.45-47あたり