重回帰分析

$X^{\top}X $が可逆であることから、$X^{\top}X $が正定値行列である。このとき、すべての$x{\in}\mathbb{R}^N$に対して、$x{\neq}0$であれば$xX^{\top}Xx^{\top}>0$であり、$x=0$のとき$xX^{\top}Xx^{\top}$が最小(0)となる。

射影行列による理解

$P^2=P$かつ$P^{\top}=P$を満たす正方行列$P$を射影行列という
${P_X}^2=X(X^{\top}X)^{-1}X^{\top}X(X^{\top}X)^{-1}X^{\top}=X(X^{\top}X)^{-1}X^{\top} ={P_X} $

$X$の像$Im(X)$への射影になっている
https://qiita.com/takseki/items/e0de89ab82d4d287a0d7#fn3

行列$A$の列ベクトルたちの張る空間を列空間と呼ぶことにする
このとき、$A$の列空間への射影行列は $ A (A^T A)^{-1} A^T $ であることが知られている

例題16.1

(1)

自由度調整済み決定係数（Adjusted R-squared）の値が出力されているので、その値を比較する。

(2)

0.05以上の場合、棄却域に入っているのはGENとAMTの二つ。

重回帰分析の検定

$\beta_k$がゼロか非ゼロかを検定することにより、変数$x_k$が有意に影響しているかどうかを判定することができる。one-hotベクトルのような行列$A$を導入することで帰無仮説・対立仮説を定式化できる。

ある$\beta$がゼロである場合の最小二乗推定値を${R_0}^2$、すべての$\beta$が非ゼロである場合の最小二乗推定値を${R_1}^2$とし、統計検定量$T$=(省略)を考えると、これは自由度$（q,n-d-1）$の$F$分布に従う、この$T$を$F$統計量という。
詳しくはwikiを参照

例題16.2

(1)
p130の真ん中あたりに記載の性質を使う。
変数$\beta_5=0$を帰無仮説とすると、この仮定の下で$\frac{\hat{\beta}_5}{\hat{\beta}_5の標準偏差の推定量}$が自由度111-5-1=105のt分布に従う統計量となる。(p130の真ん中あたり参照)
$\beta_5$(Day)の推定値は、モデル2の出力を読み取ると$0.27388$
$\beta_5$(Day)のt統計量は、$0.27388/0.22967\approx1.1925$
p320のt分布の確率表を見ても、p値は0.1を上回っており有意とは言えず、帰無仮説を棄却できない

(2)

決定係数の観点では、モデル2のほうが優れている。
F統計量の観点では、モデル1のほうが優れている。
-- p323の表から、自由度（5,105）の上側確率5％内に入るには、F統計量が2.5以上あれば十分。
AICはモデル1が優れている。
-- AICはp288に記載されている通り、小さいほうが優れている。

例題16.3

(1)
平均二乗誤差が一番小さくなるのは、$e^{-6}$だが、交差検証の結果を見ると1のときが最も誤差の値が低く汎用的である。バランスをとって$\lambda=1$が最適

(2)
$\lambda=0$(正則化なし)の場合は、モデルがデータに過剰に適合しようとして$\beta$の値のばらつきが大きくなる。
αが大きいほど、$L_1$正則化の影響が強くなる。$L_1$正則化の性質として、$\beta$の値が厳密に0になるという（スパース性）があるので、$\alpha=1$、$alpha=0.5$の順に、係数がゼロとなっているグラフが多いものを選べばよい

(3)
回答のとおり

16章 重回帰分析