はじめに
はじめまして。Zlowと申します。
データサイエンティストを目指して勉強中です。
この記事には統計2級を取得するために学んだ事のアウトプットを記していきます。
せっかくなので手書きノートを張り付けるのではなく、マークダウンでの数式を書く練習もしていきたいと思います。
参考サイト:統計WEB
最小二乗法
単回帰式$y = \hat{a} + \hat{b}x$の偏回帰係数$\hat{a},\hat{b}$を求める方法
$x_i$における実際の値と回帰直線上の値の差を残差$e_i$とし、
残差の二乗和が最小となる$a,b$を求める。
$$\sum_{i=1}^{n}{e_i}^2 = \sum_{i=1}^{n}(y_i - a - bx_i)^2$$
より、両辺を$a$,$b$でそれぞれ偏微分し0となる式を作り、2式を連立することで以下を得る。
$$\hat{a} = \bar{y} - \hat{b}\bar{x}$$
$$\hat{b} = r\frac{S_y}{S_x} $$
決定係数
$y$の分散のうち$x$によって説明される割合を決定係数という。
回帰式の精度を示す指標として使われる。
$S^2_{y \cdot x} = \sum_{i=1}^{n}(y_i - \bar{y}_{xi})^2$とすると、決定係数$R$は以下のようになる。
$$R^2 = \frac{S_y^2 - S_y^2._x}{S_y^2}= 1-\frac{S_y^2._x}{S_y^2}$$
このとき、回帰直線$y$が最小二乗法で求められている場合
$$R=r (rは相関係数)$$
をみたす。
また、$R^2=0$のとき$x$が$y$を全く説明していない。($y$を決定するにあたり$x$は無関係である。)
一方$R^2=1$のときすべてのデータが回帰直線上に位置し、$x$が完全に$y$を決定している。