0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

決定係数

Last updated at Posted at 2020-04-04

決定係数

2変数間の関係を直線

$$ \hat{y} = ax + b $$

で近似した場合の当てはまりの良さを示す指標
最小二乗法によるフィッティングした場合は、$R^2 = r_{xy}^2$ であり常に0以上
($\hat{y} = \infty $ のとかするとマイナスになる)
決定係数が1に近いほど良いモデル

定義

$$ R^2 = 1 - \frac{\displaystyle\sum_{i=1}^{n}( y_i - \hat{y_i})^2}{\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})^2} = \frac{残差変動}{全変動} = r_{xy}^2
\qquad
\hat{y_i} \ は回帰で予測された値
$$

変動 意味
全変動 データのばらつき
残差変動 回帰モデルと実際の値のずれ

全変動($\hat{y} = \overline{y}$ で回帰モデル作成)に対してどれくらい誤差が少なくなったか?
残差変動=0(完璧に予測)の場合は$R^2=1$ となり
$R^2=0$ の場合は $\hat{y} =\overline{y}$ で予測するのと同じという意味

相関係数の2乗である事の証明

最小二乗法でフィッティングした場合は、

$$
\hat{y} = ax + b \quad a = \frac{S_{xy}}{S_x^2} \quad b = \overline{y} - a\overline{x}
$$

において

\begin{align}
全変動 &=  \displaystyle\sum_{i=1}^{n}[(y_i -(ax_i +b)]^2
\\\\[1pt]
&= \displaystyle\sum_{i=1}^{n}[y_i - \overline{y} - a(x_i  -  \overline{x} )]^2
\\\\[1pt]
&= \displaystyle\sum_{i=1}^{n}[(y_i - \overline{y})^2 - 2a(y_i - \overline{y})(x_i  -  \overline{x} ) + a^2(x_i  -  \overline{x} )^2]
\\\\[1pt]
&=\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})^2 - 2a\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})(x_i  -  \overline{x} ) + a^2\displaystyle\sum_{i=1}^{n}(x_i  -  \overline{x} )^2
\\\\[1pt]
&= nS_y^2 - 2\frac{S_{xy}}{S_x^2}\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})(x_i  -  \overline{x} ) + (\frac{S_{xy}}{S_x^2})^2\displaystyle\sum_{i=1}^{n}(x_i  -  \overline{x} )^2
\\\\[1pt]
&= nS_y^2 - 2\frac{S_{xy}}{S_x^2}\frac{n}{n}\displaystyle\sum_{i=1}^{n}(y_i - \overline{y})(x_i  -  \overline{x} ) + (\frac{S_{xy}}{S_x^2})^2\frac{n}{n}\displaystyle\sum_{i=1}^{n}(x_i  -  \overline{x} )^2
\\\\[1pt] 
&= nS_y^2 - 2n\frac{S_{xy}^2}{S_x^2} + n(\frac{S_{xy}}{S_x^2})^2S_x^2
\\\\[1pt]
&= nS_y^2 - n\frac{S_{xy}^2}{S_x^2}
\end{align} 

一方、
$$
残差変動 = \displaystyle\sum_{i=1}^{n}(y_i - \overline{y})^2 = nS_y^2
$$
なので

\begin{align}
R^2 &= 1 - \frac{残差変動}{全変動} 
\\
&= 1 - \frac{nS_y^2 - n\frac{S_{xy}^2}{S_x^2}}{nS_y^2} = \frac{S_{xy}^2}{S_x^2S_y^2} 
\\
&= r_{xy}^2
\end{align} 

平面への当てはめ

3変数 $y$ = 年齢、$x_1$ = 最高血圧(mmHg)、$x_2$ = 肺活量(ml)に対して

$$y = b_1x_i + b_2x_2 +a$$

と、年齢を3次元の重回帰で表現した場合、決定係数は平面への当てはまり具合となる

重回帰分析では変数が増えるほど決定係数は1に近づくため、変数の数が多い場合は自由度修正済み決定係数を使用する

多項式回帰

明らかに直線で表現できない事が分かっている場合は、2次式、3次式で表現を試みるのは自然
これらの方法は多項式回帰と呼ばれ、直行多項式(多項式同士の内積$=0$)で表現する

$$ f(x) = a_0 + a_1\phi_1(t) + a_2\phi_2(t) + \cdots + a_n\phi_n(t)$$

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?