はじめに
某有志らで、機械学習理論の入門書であるRによる統計的学習入門(ISLR日本語版)の勉強会をしているのですが、私がこの本にある表題の演習問題 3.7の(7)の解答担当になってしまいました。自分なりに解いてみたので、解答を晒します。
※もし、間違いにお気付きの方がいたら、教えて頂けるとありがたいです。
問題の内容
線形単回帰により$y$を$x$に回帰した時、決定係数$R^2$が$x$と$y$の相関係数の2乗に等しいことを証明せよ。簡単のために、$\bar{x} = \bar{y} = 0$を仮定して良い。
定義式のまとめ
今回使う定義式をまずまとめます。
決定係数
決定係数$R^2$は次の式で表される。
R^2 = \frac{TSS-RSS}{TSS} = 1 - \frac{RSS}{TSS}
ここで、$TSS = \sum(y_i - \bar{y})^2$は総平方和(TSS:Total Sum of Squares)である。また、$RSS = \sum(y_i - \hat{y_i})^2$は残差標準誤差(RSS:Residual Sum of Squares)である。
相関係数
説明変数$X$と目的変数$Y$の相関係数$Cor(X,Y)$は次の式で表される。
Cor(X,Y) = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}
本題の証明
まず、相関係数の2乗を計算する。
\begin{align}
\{Cor(x,y)\}^2 &= \left( \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}\right)^2 \\
&= \frac{(\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}))^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2\sum_{i=1}^{n}(y_i - \bar{y})^2} \\
&= \frac{\{\sum_{i=1}^{n}(x_iy_i)\}^2}{\sum_{i=1}^{n}x_i^2\sum_{i=1}^{n}y_i^2}
\end{align}
なお、最後の変換は、$\bar{x} = \bar{y} = 0$の仮定を適用。
次に、決定係数$R^2$について計算する。
\begin{align}
R^2 &= \frac{TSS - RSS}{TSS} \\
&= \frac{\sum_{i=1}^{n}(y_i - \bar{y})^2 - RSS}{\sum_{i=1}^{n}(y_i - \bar{y})^2} \\
&= \frac{\sum_{i=1}^{n} y_i^2 - RSS}{\sum_{i=1}^{n} y_i^2}
\end{align}
最後は$\bar{x} = \bar{y} = 0$の仮定を適用。
ここで、RSSは次となる。
\begin{align}
RSS &= \sum_{i=1}^{n}(y_i - \hat{y_i})^2 \\
&= \sum_{i=1}^{n}(y_i - \hat{\beta_0} - \hat{\beta_1} x_i)^2 \\
\end{align}
ここで、最小値のRSSにおいて、$\hat{\beta_0}$と$\hat{\beta_1}$は次となる。
\begin{align}
\hat{\beta_1} &= \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} \\
&= \frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2} \\
\hat{\beta_0} &= \bar{y} - \hat{\beta_1}\bar{x} \\
&= 0
\end{align}
各$\beta$の式の最後は、$\bar{x} = \bar{y} = 0$の仮定を適用。
まず、$\hat{\beta_0}$をRSSの式に代入する(消去する)。
\begin{align}
\sum_{i=1}^{n}(y_i - \hat{\beta_0} - \hat{\beta_1} x_i)^2 &= \sum_{i=1}^{n}(y_i - \hat{\beta_1}x_i)^2
\end{align}
ここで、上式を$R^2$に入れ、$\hat{\beta_1}$も適宜代入すると、
\begin{align}
\frac{\sum_{i=1}^{n} y_i^2 - RSS}{\sum_{i=1}^{n} y_i^2} &= \frac{\sum_{i=1}^{n} y_i^2 - \sum_{i=1}^{n}(y_i - \hat{\beta_1}x_i)^2}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\sum_{i=1}^{n} \{y_i^2 - (y_i - \hat{\beta_1}x_i)^2\}}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\sum_{i=1}^{n} [\{y_i + (y_i - \hat{\beta_1}x_i)\}\{y_i - (y_i - \hat{\beta_1}x_i)\}]}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\sum_{i=1}^{n} [\{2y_i - \hat{\beta_1}x_i)\}\{ \hat{\beta_1}x_i)\}]}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\hat{\beta_1}\{2\sum_{i=1}^{n} x_iy_i - \hat{\beta_1}\sum_{i=1}^{n} x_i^2\}}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2}\{2\sum_{i=1}^{n} x_iy_i - \frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2}\sum_{i=1}^{n} x_i^2\}}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2}\sum_{i=1}^{n} x_iy_i}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\{\sum_{i=1}^{n} x_iy_i\}^2}{\sum_{i=1}^{n} x_i^2\sum_{i=1}^{n} y_i^2} \\
\end{align}
先の相関係数の2乗に一致しました。
参考文献
Rによる統計的学習入門
An Introduction to Statistical Learning with Applications in R