偏差
- データの散らばりを表す。各観測値から平均値を引いたもの。
$$
偏差 = x_i - \overline{x}
$$
平均偏差
- 偏差の絶対値の平均値。データ全体の散らばりを考える時に使う。
$$
平均偏差 = \frac{1}{n}\sum_{i=1}^{n}|x_i-\overline{x}|
$$
分散
- 偏差の二乗の平均値。
$$
s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x})^2
$$
標準偏差
- 分散の正の平方根。$(s)$で表す。
標準化(基準化)
- 平均値や測定単位の異なる2変数を比べられるように処理すること。z値、zスコアという。
$$
z_i = \frac{x_i - \overline{x}}{s}
$$ - 偏差値は標準化を応用したもの。
$$
偏差値 = 50+10×\frac{x_i - \overline{x}}{s} = 50+10z_i
$$
共分散
- 2変数の関係の強さを図る指標。(変数の単位に依存して変化する)
$$
s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_i - \overline{x})(y_i - \overline{y})
$$
相関係数
- 2変数間の関係の強さを図る指標。$r_{xy}$で表す。(変数の単位に依存しない、定数倍しても変化しない)
回帰直線
- 2変数間に因果関係があると想定し、変数x(説明変数)から変数y(被説明変数、目的変数)を直線の式によって予測する際に使う直線の式のこと。
- 説明変数のとりうる値から大幅にズレた値についての予測をしてはいけない。
- 被説明変数から説明変数を予測してはいけない。
- 回帰直線の係数(傾き)で回帰直線の当てはまりは評価できない。
<直線の式>
$$
y = α + β_x
$$
αとβは回帰係数、$\hat{α}・\hat{β}$は回帰係数の推定値
<βの求め方>
$$
\hat{β} = \frac{s_{xy}}{s^2_x} = r_{xy}\frac{s_y}{s_x}
$$
$r_{xy}$は相関係数、$\frac{s_y}{s_x}$は標準偏差
<αの求め方>
$$
\hat{a} = \overline{y} - \hat{β}_{\overline{x}}
$$