回帰分析
| 種類 |
検定統計量 |
分布 |
検定方向 |
| 単回帰分析(母回帰係数の検定) |
$\displaystyle t=\frac{\hat{\beta}_1-{\beta}_1,0}{s_{\hat{\beta}_1}}$ |
$t(n-p-1)$分布 $p=1$ |
両側($\beta_1=0$ vs $\neq 0$) |
| 重回帰分析(各係数の有意性) |
$\displaystyle t=\frac{\hat{\beta}_j-{\beta}_j,0}{s_{\hat{\beta}_j}}$ |
$t(n-p-1)$分布 |
両側($\beta_j=0$ vs $\neq 0$) |
| 重回帰分析(モデル全体の有意性) |
$\displaystyle F=\frac{(SSR/p)}{(SSE/(n-p-1))}$ |
$F(p, n-p-1)$分布 |
右片側 |
| 決定係数の検定(寄与の検定) |
$\displaystyle F=\frac{R^2/p}{(1-R^2)/(n-p-1)}$ |
$F(p, n-p-1)$分布 |
右片側 |
| 相関係数の検定 |
$\displaystyle t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}$ |
$t(n-2)$分布 |
両側($r=0$ vs $\neq 0$) |
分散分析
| 種類 |
検定統計量 |
分布 |
検定方向 |
| 一元配置分散分析 |
$\displaystyle F=\frac{S_A/(k-1)}{S_E/(N-k)}$ |
$F(k-1, N-k)$分布 |
右片側 |
| 二元配置分散分析(要因A/B) |
$\displaystyle F_A=\frac{S_A/df_A}{S_E/df_E}$, $\displaystyle F_B=\frac{S_B/df_B}{S_E/df_E}$ |
各$F(df_A, df_E)$分布 |
右片側 |
| 回帰の分散分析表(回帰・残差分解) |
$\displaystyle F=\frac{MSR}{MSE}=\frac{SSR/(p)}{SSE/(n-p-1)}$ |
$F(p, n-p-1)$分布 |
右片側 |
迷いやすい帰無仮説
回帰分析
| 検定の種類 |
帰無仮説 (H_0) |
対立仮説 (H_1) |
| 単回帰分析 |
母回帰係数は0である(説明変数は目的変数に影響しない) |
母回帰係数は0でない(説明変数は目的変数に影響する) |
| 重回帰分析(係数) |
各母回帰係数$\beta_j=0$ |
少なくとも1つの$\beta_j\neq 0$ |
| 重回帰分析(モデル全体) |
全ての回帰係数$\beta_1,\beta_2,...,\beta_p=0$ |
少なくとも1つ$\beta_j\neq 0$ |
| 相関係数の検定 |
母相関係数$\rho=0$(無相関) |
$\rho\neq 0$(有相関) |
分散分析
| 検定の種類 |
帰無仮説 (H_0) |
対立仮説 (H_1) |
| 一元配置分散分析 |
各群の母平均は等しい |
少なくとも1群の母平均が異なる |
| 二元配置分散分析(要因A/B) |
各要因の水準による母平均の差はない |
要因AまたはBに差がある |
| 重回帰モデルの分散分析 |
回帰による説明分散と残差分散に差はない |
回帰による説明分散が有意に大きい |
一般式
単回帰分析
$$
Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i
$$
| 記号 |
意味 |
| $Y_i$ |
目的変数(例:売上) |
| $X_i$ |
説明変数(例:広告費) |
| $\beta_0$ |
切片(回帰直線のY軸との交点) |
| $\beta_1$ |
傾き(説明変数の影響の大きさ) |
| $\varepsilon_i$ |
誤差(観測値と回帰直線との差) |
| 記号 |
統計ソフト出力 |
意味 |
| $\hat{\beta}_0 , \hat{\beta}_1$ |
Estimate |
回帰係数(切片・傾き)の推定値 |
| $s_{\hat{\beta}_1}$ |
Std. Error |
回帰係数の標準誤差 |
| $\displaystyle t = \frac{\hat{\beta}_1}{s_{\hat{\beta}_1}}$ |
t value |
回帰係数の t 統計量 |
| $P(\text{T} > |t|) $ |
Pr(> t) |
回帰係数が 0 かどうかの両側検定 p値 |
| $n - p -1$ |
Residual df |
自由度(単回帰で$p=1$) |
| $t(n-2) $ |
(内部計算) |
使用される t 分布 |
| $\hat{\beta}_1 \pm t_{\alpha/2}(n-2)* s_{\hat{\beta}_1}$ |
|
回帰係数の信頼区間 |
重回帰分析
$$
Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_p X_{pi} + \varepsilon_i
$$
| 記号 |
意味 |
| $Y_i$ |
目的変数 |
| $X_{1i}, X_{2i}, \ldots, X_{pi}$ |
複数の説明変数 |
| $\beta_0$ |
切片 |
| $\beta_j$ |
各説明変数 (X_j) の母回帰係数(影響の強さ) |
| $\varepsilon_i$ |
誤差項(誤差のばらつき) |
| $p$ |
説明変数の個数 |
| $n$ |
標本数(データ数) |
| 記号 |
統計ソフト出力 |
意味 |
| $\hat{\beta}_j$ |
Estimate |
回帰分析で推定された回帰係数(例:広告費、価格など) |
| $s_{\hat{\beta}_j}$ |
Std. Error |
その回帰係数の標準誤差 |
| $\displaystyle t = \frac{\hat{\beta}_j}{s_{\hat{\beta}_j}}$ |
t value |
回帰係数の t 統計量 |
| $P(\text{T} > \lvert t \rvert)$ |
Pr(> t) |
回帰係数が 0 かどうかの両側検定の p 値 |
| $n - p - 1$ |
Residual df |
自由度(切片1つ+p個の係数を推定したため) |
| $t(n - p - 1)$ |
(内部計算) |
使用される t 分布 |
| $\hat{\beta}_j \pm t_{\alpha/2}(n-2)* s_{\hat{\beta}_j}$ |
|
回帰係数の信頼区間 |
迷いやすい自由度
回帰分析
| 分析手法 |
自由度の考え方 |
自由度の式 |
備考 |
| 単回帰分析(t検定) |
回帰直線の当てはまり(2パラメータ:切片・傾き) |
$n-2$ |
切片・傾きを推定したため |
| 重回帰分析(t検定) |
回帰係数の個数 $p$ + 切片1個 |
$n-p-1$ |
係数数+切片を推定 |
| 重回帰モデル全体のF検定 |
回帰・残差に分解 |
$F(p, n-p-1)$ |
モデル全体の説明力 |
| 相関係数の検定 |
相関計算に2自由度消費 |
$n-2$ |
単回帰と同値 |
分散分析
| 分析手法 |
自由度の考え方 |
自由度の式 |
備考 |
| 一元配置分散分析 |
群間:$k-1$,群内:$N-k$ |
$F(k-1, N-k)$ |
群平均の比較 |
| 二元配置分散分析 |
要因A:$a-1$,要因B:$b-1$,誤差:$(a-1)(b-1)$ |
$F(df_A, df_E)$等 |
各要因ごとに求める |
分析手法別:対応関係まとめ
| 分析手法 |
対応する統計検定 |
分布 |
目的 |
| 単回帰分析 |
回帰係数のt検定 |
t分布 |
傾きの有意性確認 |
| 重回帰分析 |
t検定・F検定 |
t/F分布 |
各説明変数およびモデル全体の有意性 |
| 相関分析 |
相関係数のt検定 |
t分布 |
相関の有意性確認 |
| 一元配置分散分析 |
F検定 |
F分布 |
群平均の差の有無を検定 |
| 二元配置分散分析 |
F検定 |
F分布 |
各要因・交互作用の効果検定 |
統計ソフトウェアの出力項目
| 統計ソフト出力項目 |
何を表すか |
大きい/小さいと何が言えるか |
| R-squared |
目的変数の全変動のうち、回帰モデルで説明できた割合 |
大きい:説明力が高い 小さい:説明力が低い |
| Adjusted R-squared |
説明変数の個数を考慮して調整された説明力 |
モデル同士の優劣比較 大きい:無駄な説明変数が少ない良いモデル |
| F-statistic |
モデル全体が有意かどうか(説明変数がまとめて意味を持つか) |
大きい:モデル全体が有意 |
| Pr(>F) |
F-statistic に対応する p 値 |
小さい:モデル全体が統計的に有意 |
| Estimate |
回帰係数の推定値(影響の方向と大きさ) |
正:正の影響 負:負の影響 |
| Std. Error |
回帰係数推定値のばらつき(不確かさ) |
小さい:推定が安定している |
| t value |
回帰係数が 0 からどれだけ離れているかを表す統計量 |
絶対値が大きい:その変数は有意 |
| Pr(>|t|) |
各回帰係数の t 検定に対応する p 値 |
小さい:その説明変数は有意 係数が0でないといえる |
| Residual df |
残差に対応する自由度((n-p-1)) |
標本数と説明変数数で決まる |
| Residual Std. Error |
残差(誤差項)の標準偏差 |
小さい:モデルの当てはまりが良い |