ピアソン相関係数の復習
共分散
相関係数を求めるには、共分散が必要になる。
データの大きさ$n$の2変数データを便宜的に、 $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$ と表した場合、共分散は
\begin{align}
S_{xy} &= \frac{1}{n} \Bigl( (x_1 - \bar{x})(y_1 - \bar{y}) + (x_2 - \bar{x})(y_2 - \bar{y}) + \cdots + (x_n - \bar{x})(y_n - \bar{y}) \Bigr) \\
&= \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})
\end{align}
共分散が正の値なら正の相関が、負ならば負の相関がある。
共分散は、単位によって値の大きさが変わるので、$x,y$両方の標準偏差で割る。
これが、相関係数(ピアソンの積率相関係数)
相関係数
共分散を$x,y$の標準偏差で割るので、以下の式で表せる
r_{xy} = \frac{s_{xy}}{s_xs_y}
ここで$s_{xy}$は$x$と$y$の共分散、$s_x,s_y$はそれぞれ$x,y$の標準偏差を表す。
共分散を標準偏差で割ることで、相関係数は測定の単位に依存せず、-1から1の間の値をとる。
相関係数の値の正負は、そのまま正の相関、負の相関を示し、絶対値が大きな値をとるほど、強い相関がある。
相関係数を$R$と置くと、
\begin{align}
R^2 &= \frac{s_{xy}^2}{s_x^2s_y^2} \\
&= \frac{s_{xy}}{s_x^2}\times\frac{s_{xy}}{s_y^2}
\end{align}
ここで、$s_x^2,s_y^2$は、それぞれ$x,y$の分散を表す。
回帰直線
$x$に対する$y$の回帰直線の傾きは、$\frac{xとyの共分散}{xの分散}$で表すことができ、
$y$に対する$x$の回帰直線の傾きは、$\frac{xとyの共分散}{yの分散}$で表すことができる。
これは、それぞれ、$\frac{s_{xy}}{s_x^2} , \frac{s_{xy}}{s_y^2}$を指すので、
それぞれの回帰直線の傾きを掛け合わせると、相関係数の2乗$R^2$が求まる。