決定係数
2変数間の関係を直線
$$ \hat{y} = ax + b $$
で近似した場合の当てはまりの良さを示す指標
最小二乗法によるフィッティングした場合は、$R^2 = r_{xy}^2$ であり常に0以上
($\hat{y} = \infty $ のとかするとマイナスになる)
決定係数が1に近いほど良いモデル
定義
$$ R^2 = 1 - \frac{\displaystyle\sum_{i=1}^{n}( y_i - \hat{y_i})^2}{\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})^2} = \frac{残差変動}{全変動} = r_{xy}^2
\qquad
\hat{y_i} \ は回帰で予測された値
$$
変動 | 意味 |
---|---|
全変動 | データのばらつき |
残差変動 | 回帰モデルと実際の値のずれ |
全変動($\hat{y} = \overline{y}$ で回帰モデル作成)に対してどれくらい誤差が少なくなったか?
残差変動=0(完璧に予測)の場合は$R^2=1$ となり
$R^2=0$ の場合は $\hat{y} =\overline{y}$ で予測するのと同じという意味
相関係数の2乗である事の証明
最小二乗法でフィッティングした場合は、
$$
\hat{y} = ax + b \quad a = \frac{S_{xy}}{S_x^2} \quad b = \overline{y} - a\overline{x}
$$
において
\begin{align}
全変動 &= \displaystyle\sum_{i=1}^{n}[(y_i -(ax_i +b)]^2
\\\\[1pt]
&= \displaystyle\sum_{i=1}^{n}[y_i - \overline{y} - a(x_i - \overline{x} )]^2
\\\\[1pt]
&= \displaystyle\sum_{i=1}^{n}[(y_i - \overline{y})^2 - 2a(y_i - \overline{y})(x_i - \overline{x} ) + a^2(x_i - \overline{x} )^2]
\\\\[1pt]
&=\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})^2 - 2a\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})(x_i - \overline{x} ) + a^2\displaystyle\sum_{i=1}^{n}(x_i - \overline{x} )^2
\\\\[1pt]
&= nS_y^2 - 2\frac{S_{xy}}{S_x^2}\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})(x_i - \overline{x} ) + (\frac{S_{xy}}{S_x^2})^2\displaystyle\sum_{i=1}^{n}(x_i - \overline{x} )^2
\\\\[1pt]
&= nS_y^2 - 2\frac{S_{xy}}{S_x^2}\frac{n}{n}\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})(x_i - \overline{x} ) + (\frac{S_{xy}}{S_x^2})^2\frac{n}{n}\displaystyle\sum_{i=1}^{n}(x_i - \overline{x} )^2
\\\\[1pt]
&= nS_y^2 - 2n\frac{S_{xy}^2}{S_x^2} + n(\frac{S_{xy}}{S_x^2})^2S_x^2
\\\\[1pt]
&= nS_y^2 - n\frac{S_{xy}^2}{S_x^2}
\end{align}
一方、
$$
残差変動 = \displaystyle\sum_{i=1}^{n}(y_i - \overline{y})^2 = nS_y^2
$$
なので
\begin{align}
R^2 &= 1 - \frac{残差変動}{全変動}
\\
&= 1 - \frac{nS_y^2 - n\frac{S_{xy}^2}{S_x^2}}{nS_y^2} = \frac{S_{xy}^2}{S_x^2S_y^2}
\\
&= r_{xy}^2
\end{align}
平面への当てはめ
3変数 $y$ = 年齢、$x_1$ = 最高血圧(mmHg)、$x_2$ = 肺活量(ml)に対して
$$y = b_1x_i + b_2x_2 +a$$
と、年齢を3次元の重回帰で表現した場合、決定係数は平面への当てはまり具合となる
重回帰分析では変数が増えるほど決定係数は1に近づくため、変数の数が多い場合は自由度修正済み決定係数を使用する
多項式回帰
明らかに直線で表現できない事が分かっている場合は、2次式、3次式で表現を試みるのは自然
これらの方法は多項式回帰と呼ばれ、直行多項式(多項式同士の内積$=0$)で表現する
$$ f(x) = a_0 + a_1\phi_1(t) + a_2\phi_2(t) + \cdots + a_n\phi_n(t)$$