1 相関分析
1-1 相関係数
2つの要素の直線的な相関関係の強弱を表すもの。
r_{x y}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} \times \sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}}
1-2 無相関の検定
標本から算出した相関係数を使って、母集団の相関係数が0かどうかを検定すること。
1 帰無仮説「母相関係数は0(無相関)である」$H_0$と対立仮説$H_1$を立てる。
2 有意水準$a$を設定する。
3 適切な検定統計量を決める。$r$は相関係数、$n$はサンプルサイズ。
t=\frac{|r| \sqrt{n-2}}{\sqrt{1-r^{2}}}
4 棄却ルール(両側or片側検定)を決め、t分布表($n-2$)から値を読み取る。
1-3 母相関係数の信頼区間
1 標本から算出した相関係数$r$と母相関係数$p$を変換します。(フィッシャーのz変換)
z=\frac{1}{2} \log \frac{1+r}{1-r}\\
\zeta=\frac{1}{2} \log \frac{1+\rho}{1-\rho}
2 zを標準化する。($z$はサンプルサイズ$n$が大きい時には、平均$\zeta$、分散$\frac{1}{n-3}$の正規分布($\zeta,\frac{1}{n-3}$)に従う。)
\frac{z-\zeta}{\sqrt{\frac{1}{n-3}}}=\sqrt{n-3}(z-\zeta)
3 信頼区間を求める。
\begin{array}{c}
-z_{\frac{\alpha}{2}} \leq \sqrt{n-3}(z-\zeta) \leq z_{\frac{\alpha}{2}} \\
z-z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}} \leq \zeta \leq z+z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}}
\end{array}
4 $\zeta$を母相関係数に戻す。
\begin{array}{l}
z_{L}=z-z_{\frac{\alpha}{2}} \times \sqrt{\frac{1}{n-3}} \\
z_{U}=z+z \frac{\alpha}{2} \times \sqrt{\frac{1}{n-3}}
\end{array}\\
\frac{\exp \left(2 z_{L}\right)-1}{\exp \left(2 z_{L}\right)+1} \leq \rho \leq \frac{\exp \left(2 z_{U}\right)-1}{\exp \left(2 z_{U}\right)+1}
1-4 偏相関係数
2つの変数の相関が第3の変数によって高められる、または低められる場合に、2変数から第3の変数の影響を取り除いて求めた相関係数。
r_{x y \cdot z}=\frac{r_{x y}-r_{x z} r_{y z}}{\sqrt{1-r_{x z}^{2}} \sqrt{1-r_{y z}^{2}}}
2 回帰分析
回帰式(目的変数$y$について説明変数$x$を使った式で表すこと)を求めること。
回帰の現象:データを繰り返し測定すると、全体の平均に近づいた値として観測される現象。
回帰の錯誤:回帰の現象が観察された場合に、対象者に行われた処置や対応による効果であると誤って判断してしまうこと。
偏回帰係数:回帰分析において得られる回帰方程式の各説明変数の係数のこと。
標準偏回帰係数:説明変数および目的変数をそれぞれ標準化した値から算出される偏回帰係数のこと。
ダミー変数:カテゴリカルデータや2値型データのようなもともと数値でないデータに対して、0と1を用いて数量化した変数のこと。
2-1 単回帰分析
単回帰式を求めること。
すべてのデータの誤差$u$が小さくなるように$\beta_0$と$\beta_1$を算出する。
単回帰式
$u$は誤差で真の回帰式から実際のデータまでのズレを表す。
y=\beta_{0}+\beta_{1} x+u
単回帰式の求め方
1 誤差を求める。実際のデータの値を真の回帰式から求められる値で引く。
u_i=y_i-(\beta_0+\beta_1x_i)
2 すべてのデータの誤差を小さくするために、最小二乗法を用いて算出。
\sum_{i=1}^{n} e_{i}^{2}=\sum_{i=1}^{n}\left\{y_{i}-\left(\beta_{0}+\beta_{1} x_{i}\right)\right\}^{2}\\
偏微分した式を0とした2つの式
\begin{array}{c}
\sum_{\hat{\beta}_{1}=\frac{i=1}{\sum_{i=1}}^{n}\left(x_{i}-\bar{y}\right)\left(x_{i}-\bar{x}\right)} \\
\hat{\beta}_{0}=\bar{y}-\widehat{\beta}_{1} \bar{x}
\end{array}
3 偏回帰係数$\hat\beta_0$、$\hat\beta_1$が求まる。
真の回帰式における$\beta_0$と$\beta_1$とは異なるため、$\hat\beta_0$と$\hat\beta_1$と表す。
2-2 重回帰分析
複数の説明変数を用いて目的変数を表す回帰式を算出すること。
重回帰式
y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\beta_{3} x_{3}+\beta_{4} x_{4}
重回帰式の求め方
単回帰式同様、最小二乗法で求める。
2-3 偏回帰係数の有意性の検定
定数項も含めた各偏回帰係数$\hat\beta_i$が0であるかについての検定。
1 帰無仮説(偏回帰係数=0)$H_0$と対立仮説$H_1$を立てる。
2 適切な検定統計量を求める。
t_{i}=\frac{\widehat{\beta}_{i}-0}{\operatorname{se}\left(\widehat{\beta}_{i}\right)}
3 t分布表($n-k-1$)から値を読み取る。
4 検定統計量を元に結論を出す。
2-4 偏回帰係数の信頼区間
1 それぞれの偏回帰係数$\hat\beta_i$と標準誤差$se$を求める。
2 t分布表(自由度は$n−k-1$)からパーセント点を調べる。
3 信頼区間を求める。
\widehat{\beta}_{i}-t_{\frac{\alpha}{2}}(n-k-1) \times \operatorname{se}\left(\widehat{\beta}_{i}\right) \leq \beta_{i} \leq \widehat{\beta}_{i}+t_{\frac{\alpha}{2}}(n-k-1) \times \operatorname{se}\left(\widehat{\beta}_{i}\right)
2-5 残差分析
回帰式がデータに対して妥当であれば、残差は適当にばらつくか分析すること。
回帰残差
推定された回帰式に代入して得られた$\hat{y}$の値と、実際のデータ$y$との差。
e_{i}=y_{i}-\left(\widehat{\beta}_{0}+\widehat{\beta}_{1} x_{i}\right)
予測値:ある値$x$から予測される$\hat{y}$の値のこと。
2-6 決定係数
データに対する、推定された回帰式の当てはまりの良さ(度合い)を表す。
0から1までの値をとり、1に近いほど回帰式が実際のデータに当てはまっていることを表しており、
説明変数が目的変数をよく説明していると言える。
決定係数の求め方
回帰変動が全変動に対してどれだけ多いか=残差変動が全変動に対してどれだけ少ないか
を考える。
R^{2}=\frac{\sum_{i=1}^{n}\left(\widehat{y}_{i}-\bar{y}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}=1-\frac{\sum_{i=1}^{n}\left(y_{i}-\widehat{y}_{i}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}
全変動:実際のデータとデータ全体の平均値との差を表す。
回帰変動:推定された回帰式から得られた予測値とデータ全体の平均値の差を表す。
残差変動:実際のデータと推定された回帰式から得られた予測値との差を表す。
自由度調整済み決定係数
決定係数は説明変数の数が増えるほど1に近づくという性質を持っている為、補正した決定係数のこと。
R^{2}_{f}=1-\frac{\frac{\sum_{i=1}^{n}\left(y_{i}-\widehat{y}_{i}\right)^{2}}{n-k-1}}{\frac{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}{n-1}}
2-7 重相関係数
実際に観測された目的変数の値と、重回帰式をあてはめて計算した推定値(理論値)との相関係数。
0から1の間の値を取り、1に近いほど分析の精度は高いと言える。