5
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

線形単回帰の決定係数が、目的変数と説明変数の相関係数の2乗に等しいことの証明

Last updated at Posted at 2019-07-10

はじめに

某有志らで、機械学習理論の入門書であるRによる統計的学習入門(ISLR日本語版)の勉強会をしているのですが、私がこの本にある表題の演習問題 3.7の(7)の解答担当になってしまいました。自分なりに解いてみたので、解答を晒します。

※もし、間違いにお気付きの方がいたら、教えて頂けるとありがたいです。

問題の内容

線形単回帰により$y$を$x$に回帰した時、決定係数$R^2$が$x$と$y$の相関係数の2乗に等しいことを証明せよ。簡単のために、$\bar{x} = \bar{y} = 0$を仮定して良い。

定義式のまとめ

今回使う定義式をまずまとめます。

決定係数

決定係数$R^2$は次の式で表される。

R^2 = \frac{TSS-RSS}{TSS} = 1 - \frac{RSS}{TSS}

ここで、$TSS = \sum(y_i - \bar{y})^2$は総平方和(TSS:Total Sum of Squares)である。また、$RSS = \sum(y_i - \hat{y_i})^2$は残差標準誤差(RSS:Residual Sum of Squares)である。

相関係数

説明変数$X$と目的変数$Y$の相関係数$Cor(X,Y)$は次の式で表される。

Cor(X,Y) = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}

本題の証明

まず、相関係数の2乗を計算する。

\begin{align}
\{Cor(x,y)\}^2 &= \left( \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}\right)^2 \\
 &= \frac{(\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}))^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2\sum_{i=1}^{n}(y_i - \bar{y})^2} \\
 &= \frac{\{\sum_{i=1}^{n}(x_iy_i)\}^2}{\sum_{i=1}^{n}x_i^2\sum_{i=1}^{n}y_i^2}
\end{align} 

なお、最後の変換は、$\bar{x} = \bar{y} = 0$の仮定を適用。

次に、決定係数$R^2$について計算する。

\begin{align}
R^2 &= \frac{TSS - RSS}{TSS} \\
&= \frac{\sum_{i=1}^{n}(y_i - \bar{y})^2 - RSS}{\sum_{i=1}^{n}(y_i - \bar{y})^2} \\
&= \frac{\sum_{i=1}^{n} y_i^2 - RSS}{\sum_{i=1}^{n} y_i^2}
\end{align} 

最後は$\bar{x} = \bar{y} = 0$の仮定を適用。
ここで、RSSは次となる。

\begin{align}
RSS &= \sum_{i=1}^{n}(y_i - \hat{y_i})^2 \\
&= \sum_{i=1}^{n}(y_i - \hat{\beta_0} - \hat{\beta_1} x_i)^2 \\
\end{align}

ここで、最小値のRSSにおいて、$\hat{\beta_0}$と$\hat{\beta_1}$は次となる。

\begin{align}
\hat{\beta_1} &= \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} \\
&= \frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2} \\
\hat{\beta_0} &= \bar{y} - \hat{\beta_1}\bar{x} \\
&= 0
\end{align}

各$\beta$の式の最後は、$\bar{x} = \bar{y} = 0$の仮定を適用。
まず、$\hat{\beta_0}$をRSSの式に代入する(消去する)。

\begin{align}
\sum_{i=1}^{n}(y_i - \hat{\beta_0} - \hat{\beta_1} x_i)^2 &= \sum_{i=1}^{n}(y_i - \hat{\beta_1}x_i)^2
\end{align}

ここで、上式を$R^2$に入れ、$\hat{\beta_1}$も適宜代入すると、

\begin{align}
\frac{\sum_{i=1}^{n} y_i^2 - RSS}{\sum_{i=1}^{n} y_i^2} &= \frac{\sum_{i=1}^{n} y_i^2 - \sum_{i=1}^{n}(y_i - \hat{\beta_1}x_i)^2}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\sum_{i=1}^{n} \{y_i^2 - (y_i - \hat{\beta_1}x_i)^2\}}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\sum_{i=1}^{n} [\{y_i + (y_i - \hat{\beta_1}x_i)\}\{y_i - (y_i - \hat{\beta_1}x_i)\}]}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\sum_{i=1}^{n} [\{2y_i - \hat{\beta_1}x_i)\}\{ \hat{\beta_1}x_i)\}]}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\hat{\beta_1}\{2\sum_{i=1}^{n} x_iy_i - \hat{\beta_1}\sum_{i=1}^{n} x_i^2\}}{\sum_{i=1}^{n} y_i^2} \\
&= \frac{\frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2}\{2\sum_{i=1}^{n} x_iy_i - \frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2}\sum_{i=1}^{n} x_i^2\}}{\sum_{i=1}^{n} y_i^2} \\ 
&= \frac{\frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2}\sum_{i=1}^{n} x_iy_i}{\sum_{i=1}^{n} y_i^2} \\ 
&= \frac{\{\sum_{i=1}^{n} x_iy_i\}^2}{\sum_{i=1}^{n} x_i^2\sum_{i=1}^{n} y_i^2} \\ 
\end{align}

先の相関係数の2乗に一致しました。

参考文献

Rによる統計的学習入門
An Introduction to Statistical Learning with Applications in R

5
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?