Ⅰ. 標本調査(Sampling)
【1】抽出法の種類
抽出法 | 特徴 | 出題例 |
---|---|---|
単純無作為抽出法 | 母集団の全要素が等確率で選ばれる | 「乱数表で標本を抽出」 |
系統抽出法 | 一定間隔で抽出(例:10人ごとに1人) | 「名簿から等間隔抽出」 |
層化抽出法 | 層(性別・地域など)ごとに無作為抽出 | 「性別ごとに抽出」 |
集団抽出法 | 集団単位(例:学校)を選び、その全体を調査 | 「いくつかの学校を選び全生徒調査」 |
多段抽出法 | 複数段階で抽出(例:地域→学校→生徒) | 「地域→学校→生徒の順で抽出」 |
【2】フィッシャーの3原則(実験計画の基礎)
原則 | 意味 |
---|---|
無作為化 | 偏りを防ぎ外的要因を平均化 |
局所管理 | 同条件グループ化(ブロック化)で誤差減少 |
反復 | 同じ処理を複数回実施し偶然誤差を評価 |
Ⅱ. 記述統計(Descriptive Statistics)
【1】代表値・散布度
指標 | 定義 | 特徴 |
---|---|---|
平均 | $\displaystyle \bar{X}=\frac{1}{n}\sum X_i$ | 中心的傾向 |
分散 | $\displaystyle s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$ | ばらつきの平方平均(不偏推定) |
標準偏差 | $s=\sqrt{s^2}$ | 単位が元のデータと同じ |
変動係数 | $\displaystyle CV=\frac{s}{\bar{X}}$ | 比較用の相対的ばらつき |
四分位範囲 | $IQR = Q_3 - Q_1$ | 中央50%の範囲 |
【2】分布の形状
指標 | 意味 | 解釈 |
---|---|---|
歪度(Skewness) | 分布の非対称性 | $g_1>0$:右裾長い/$g_1<0$:左裾長い |
尖度(Kurtosis) | 分布の尖り具合 | $g_2>0$:とがっている/$g_2<0$:平ら |
【3】母集団と標本の関係
概念 | 数式 | 説明 |
---|---|---|
母平均 | $\mu = E[X] = \frac{1}{N}\sum X_i$ | 母集団の平均 |
母分散 | $\sigma^2 = E[(X-\mu)^2]$ | 母集団全体のばらつき |
標本平均 | $\bar{X}=\frac{1}{n}\sum X_i$ | 母平均の推定量 |
標本分散 | $s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$ | 不偏推定量 ($E[s^2]=\sigma^2$) |
【4】標準誤差(推定精度の指標)
$$
SE = \frac{s}{\sqrt{n}}
$$
- 標本サイズが大きいほど小さい(精度が上がる)
Ⅲ. 確率(Probability)
【1】確率の基本法則
加法定理
$$
P(A\cup B)=P(A)+P(B)-P(A\cap B)
$$
条件付き確率
$$
P(A|B)=\frac{P(A\cap B)}{P(B)}
$$
独立性
$$
P(A\cap B)=P(A)P(B)
$$
ベイズの定理
$$
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
$$
【2】確率変数の期待値・分散・共分散
期待値(線形性)
$$
E(aX+bY+c)=aE(X)+bE(Y)+c
$$
$$
E(X + Y) = E(X) + E(Y)
$$
$$
E(XY) = E(X)E(Y)(独立なとき)
$$
分散の性質
$$
V[X] = E[X^2] - (E[X])^2
$$
$$
V(aX+b)=a^2V(X)
$$
$$
V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
$$
$$
V(X-Y)=V(X)+V(Y)-2Cov(X,Y)
$$
共分散と相関
$$
Cov(X,Y)=E[XY]-E[X]E[Y]
$$
$$
\mathrm{Cov}(X,X) = E[X^2] - (E[X])^2 = V[X]
$$
$$
Cov(aX + bY, cX - dY) = Cov(aX, cX) - Cov(aX, dY) + Cov(bY, cX) - Cov(bY, dY)
$$
$$
= acV(X) - adCov(X, Y) + bcCov(X, Y) - bdV(Y)
$$
$$
Cov(X, Y) = 0
$$
$$
\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}
$$
【3】代表的分布
分布 | 形 | 主な用途 |
---|---|---|
二項分布 | $P(X=k)={nCk}p^k(1-p)^{n-k}$ | 成功回数の確率 |
ポアソン分布 | $P(X=k)=\frac{\lambda^ke^{-\lambda}}{k!}$ | 希少事象(例:事故件数) |
正規分布 | $Z=\frac{X-\mu}{\sigma}$ | 標準化・近似の基礎 |
Ⅳ. 推定(Estimation)
【1】点推定
指標 | 式 | 備考 |
---|---|---|
母平均の推定量 | $\bar{X}$ | 不偏推定量 |
母分散の推定量 | $s^2$ | 不偏推定量 |
母比率の推定量 | $\hat{p}=X/n$ | 標本比率 |
【2】区間推定(信頼区間)
対象 | 信頼区間 | 分布 |
---|---|---|
母平均(母分散既知) | $\displaystyle \bar{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$ | 標準正規分布 |
母平均(母分散未知) | $\displaystyle \bar{X}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}$ | t分布(自由度$n-1$) |
母比率 | $\displaystyle \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ | 標準正規分布 |
【補足】臨界値(Critical Value)の定義
$Z_{\alpha/2}$・$t_{\alpha/2}$ は、
有意水準 $\alpha$ において 両側検定で上側確率が $\alpha/2$ となる点(臨界値)を意味する。
分布表から求めることで、信頼区間の幅を決定する。
分布 | 記号 | 有意水準 $\alpha=0.05$ の場合 | 備考 |
---|---|---|---|
標準正規分布 | $Z_{\alpha/2}$ | $Z_{0.025}=1.96$ | 標本数が十分大きい場合や母分散既知の場合に使用 |
t分布(自由度10) | $t_{\alpha/2,\nu}$ | $t_{0.025,10}=2.228$ | 標本数が小さく母分散未知の場合に使用 |
【補足】信頼区間と有意水準の関係(両側検定)
信頼区間と有意水準の関係は次の通りです:
信頼水準 | 有意水準 $\alpha$ | 両側の端(片側確率 $\alpha/2$) | 標準正規分布の臨界値($Z_{\alpha/2}$) | 意味 |
---|---|---|---|---|
90% | 0.10 | 0.05 | 1.645 | 両側5%ずつを除いた中心90%の範囲 |
95% | 0.05 | 0.025 | 1.96 | 両側2.5%ずつを除いた中心95%の範囲 |
99% | 0.01 | 0.005 | 2.576 | 両側0.5%ずつを除いた中心99%の範囲 |
【補足】信頼区間を求める式(一般形)
$$
\boxed{
\text{推定値} \pm (\text{臨界値}) \times (\text{標準誤差})
}
$$
例:標本平均や回帰係数の90%信頼区間では、
$$
\hat{\theta} \pm 1.645 \times SE(\hat{\theta})
$$
または、母分散未知・小標本では
$$
\hat{\theta} \pm t_{1-\alpha/2,\nu} \times SE(\hat{\theta})
$$
Ⅴ. 検定(Hypothesis Testing)
【1】検定の流れ
【1.1】検定統計量を用いる場合
手順
- 検定統計量(t値・χ²値・F値など)を計算する
- 自由度と有意水準 α から 臨界値 を分布表で調べる
- 検定統計量と臨界値を比較する
棄却条件
検定の種類 | 棄却条件(帰無仮説を棄却する場合) |
---|---|
t検定 | $| t | > t_{α/2, ν}$ |
χ²検定 | $χ² > χ²_{α, ν}$ |
F検定 | $F > F_{α, ν_1, ν_2}$ |
【1.2】P値を用いる場合
手順
- 検定統計量(t, χ², Fなど)を求める
- その値に対応する p値(片側または両側の確率) を計算する
- 設定した有意水準 α と比較する
棄却条件
条件 | 意味 |
---|---|
p値 < α | 「これほど極端な値は確率的に滅多に起きない」→ 帰無仮説を棄却(有意) |
p値 ≥ α | 「この程度の値は普通に起こりうる」→ 帰無仮説を棄却できない(有意でない) |
【2】母平均の検定
条件 | 検定統計量 | 分布 |
---|---|---|
母分散既知 | $Z=\dfrac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$ | $N(0,1)$ |
母分散未知 | $t=\dfrac{\bar{X}-\mu_0}{s/\sqrt{n}}$ | $t(n-1)$ |
【3】母平均の差の検定
条件 | 検定統計量 | 分布 |
---|---|---|
母分散既知 | $\displaystyle Z=\frac{\bar{X}_1-\bar{X}_2}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}$ | 標準正規分布 $N(0,1)$ |
母分散未知(Welch) | $\displaystyle t=\frac{\bar{X}_1-\bar{X}_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}}$ | $t(\nu)$分布(Welchの自由度) |
母分散未知・等分散(Student) | $\displaystyle t=\frac{\bar{X}_1-\bar{X}_2}{s_p\sqrt{1/n_1+1/n_2}}$ ただし $\displaystyle s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$ |
$t(n_1+n_2-2)$ |
母分散未知・等分散(Student)展開形 | $\displaystyle t=\frac{\bar{X}_1-\bar{X}_2}{\sqrt{\left(\frac{1}{n_1}+\frac{1}{n_2}\right)\frac{\sum(X_1i-\bar{X}_1)^2+\sum({X}_2i-\bar{X}_2)^2}{n_1+n_2-2}}}$ | $t(n_1+n_2-2)$ |
【4】母比率の検定
種類 | 検定統計量 | 分布 |
---|---|---|
1標本比率のZ検定 | $Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}$ | $N(0,1)$ |
【5】母比率の差の検定
種類 | 検定統計量 | 分布 |
---|---|---|
2標本比率のZ検定 | $Z=\dfrac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}_1(1-\hat{p}_1)/n_1+\hat{p}_2(1-\hat{p}_2)/n_2}}$ | $N(0,1)$ |
【5.1】信頼区間による判定
2つの母比率の差に対する $(1-\alpha)\times100%$ 信頼区間は次の式で表される:
$$
(\hat{p}_1 - \hat{p}*2)
\pm
Z _{\alpha/2}
\sqrt{
\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1}
+
\frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}
}
$$
ここで、
$Z_{\alpha/2}$ は標準正規分布の上側確率 $\alpha/2$ に対応する値。
例:95%信頼区間なら $Z_{0.025}=1.96$。
【5.2】判定基準(信頼区間による帰無仮説の判断)
信頼区間 | 解釈 | 検定結果 |
---|---|---|
0 を含む | 「2群の比率に有意な差がない可能性を否定できない」 | 帰無仮説を棄却しない |
0 を含まない | 「2群の比率に有意な差がある」 | 帰無仮説を棄却する |
【5.3】検定のまとめ
項目 | 内容 |
---|---|
用途 | 2群(例:男女、地域AとB)の母比率が等しいかを検定 |
帰無仮説 | $H_0 : p_1 = p_2$ |
対立仮説 | $H_1 : p_1 \neq p_2$(両側)または $p_1 > p_2$, $p_1 < p_2$(片側) |
検定統計量 | $Z=\dfrac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}_1(1-\hat{p}_1)/n_1+\hat{p}_2(1-\hat{p}_2)/n_2}}$ |
判定基準 | 信頼区間が 0 を含まなければ帰無仮説を棄却 |
分布 | 標準正規分布 $N(0,1)$ |
有意水準例 | $\alpha=0.05$(95%信頼区間 → $Z_{0.025}=1.96$) |
【6】分散の検定
種類 | 検定統計量 | 分布 |
---|---|---|
1標本分散のχ²検定 | $\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$ | $\chi^2(n-1)$ |
【6.1】検定の目的
1つの標本が得られたとき、その母集団の分散が既知の値(または仮定された値)と一致するかどうかを検定する。
すなわち:
$$
H_0 : \sigma^2 = \sigma_0^2
\quad \text{vs.} \quad
H_1 : \sigma^2 \neq \sigma_0^2
$$
を検証する。
この検定は「母分散の検定」または「適合度の検定(1標本の分散検定)」と呼ばれる。
【6.2】検定統計量
標本分散 ( s^2 ) を用いて、次のように定義する:
$$
\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}
$$
帰無仮説 ( H_0 ) が真のとき、標本分散は母分散に比例して分布し、
$$
\chi^2 \sim \chi^2(n-1)
$$
に従う。
ここで、自由度 ( $n-1$ ) は標本平均の推定に1自由度を使用するため。
【6.3】信頼区間による判定(母分散の区間推定)
有意水準 ( $\alpha$ ) の両側検定において、母分散の $(1-\alpha)\times100%$ 信頼区間は次の式で表される:
$$
\frac{(n-1)s^2}{\chi^2_{\alpha/2}} < \sigma^2 < \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}
$$
ここで、( $\chi^2_{\alpha/2}$ ) および ( $\chi^2_{1-\alpha/2}$ ) は、それぞれ上側・下側の臨界値。
【6.4】棄却域による判定(両側検定)
有意水準 ( $\alpha$ ) のもとで、
次の範囲に χ²値が入っていれば帰無仮説を棄却しない:
$$
\chi^2_{1-\alpha/2}(n-1)
< \frac{(n-1)s^2}{\sigma_0^2} <
\chi^2_{\alpha/2}(n-1)
$$
一方、次のいずれかの場合には帰無仮説を棄却する:
$$
\frac{(n-1)s^2}{\sigma_0^2} \le \chi^2_{1-\alpha/2}(n-1)
\quad \text{または} \quad
\frac{(n-1)s^2}{\sigma_0^2} \ge \chi^2_{\alpha/2}(n-1)
$$
【6.5】判定基準
χ²値の位置関係 | 解釈 | 検定結果 |
---|---|---|
$\chi^2_{1-\alpha/2}(n-1) < \chi^2 < \chi^2_{\alpha/2}(n-1)$ | 「母分散が仮定値と有意に異ならない可能性を否定できない」 | 帰無仮説を棄却しない |
$\chi^2 \le \chi^2_{1-\alpha/2}(n-1)$ または $\chi^2 \ge \chi^2_{\alpha/2}(n-1)$ | 「母分散が仮定値と有意に異なる」 | 帰無仮説を棄却する |
【6.6】検定のまとめ
項目 | 内容 |
---|---|
用途 | 1群の母分散が既知または仮定された値に等しいかを検定する(ばらつきの大きさの検定) |
帰無仮説 | $H_0 : \sigma^2 = \sigma_0^2$ |
対立仮説 | $H_1 : \sigma^2 \neq \sigma_0^2$(両側)または $H_1 : \sigma^2 > \sigma_0^2$, $H_1 : \sigma^2 < \sigma_0^2$(片側) |
検定統計量 | $\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$ |
分布 | カイ二乗分布 $\chi^2(n-1)$ |
棄却域(両側検定) | $\chi^2_{1-\alpha/2}(n-1) < \chi^2 < \chi^2_{\alpha/2}(n-1)$ の範囲内なら棄却しない |
判定基準 | 棄却域の外側にχ²値があれば帰無仮説を棄却 |
有意水準例 | $\alpha=0.05$(95%信頼区間 → $\chi^2_{0.025}, \chi^2_{0.975}$ を使用) |
【7】分散の検定(適合度の検定)
種類 | 検定統計量 | 分布 |
---|---|---|
適合度のχ²検定 | $\displaystyle \chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}$ | $\chi^2(k - 1 - c)$ |
【7.1】検定の目的
観測度数 ( $O_i$ ) が理論的に期待される度数 ( $E_i$ ) に従っているかを検定する。
(例:サイコロの出目が均等か、観測値が二項分布やポアソン分布に適合しているか、など)
$$
H_0 : O_i \text{ は } E_i \text{ に従う(理論分布に適合する)}
$$
【7.2】検定統計量
$$
\chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}
$$
ここで:
- ( $O_i$ ):観測度数
- ( $E_i$ ):理論分布に基づく期待度数
- ( $k$ ):区分の数
- ( $c$ ):推定した母数の数(例:正規分布なら平均・分散の2つ)
したがって自由度は:
$$
\text{df} = k - 1 - c
$$
【7.3】棄却域による判定
有意水準 ( $\alpha$ ) のもとで:
$$
\chi^2 < \chi^2_{\alpha}(k - 1 - c)
$$
であれば帰無仮説を棄却しない。
逆に:
$$
\chi^2 \ge \chi^2_{\alpha}(k - 1 - c)
$$
であれば帰無仮説を棄却する。
【7.4】判定基準
χ²値と臨界値の関係 | 解釈 | 検定結果 |
---|---|---|
$\chi^2 < \chi^2_{\alpha}(k - 1 - c)$ | 理論分布と観測分布のズレは偶然の範囲内 | 帰無仮説を棄却しない |
$\chi^2 \ge \chi^2_{\alpha}(k - 1 - c)$ | 理論分布と観測分布に有意な差がある | 帰無仮説を棄却する |
【7.5】検定のまとめ
項目 | 内容 |
---|---|
用途 | 観測データが理論分布に適合しているかを検定 |
帰無仮説 | $H_0 : O_i = E_i$(観測度数は理論値と一致) |
対立仮説 | $H_1 : O_i \neq E_i$(観測度数は理論値と異なる) |
検定統計量 | $\chi^2 = \sum_{i=1}^k \dfrac{(O_i - E_i)^2}{E_i}$ |
分布 | カイ二乗分布 $\chi^2(k - 1 - c)$ |
棄却域 | $\chi^2 \ge \chi^2_{\alpha}$ なら帰無仮説を棄却 |
有意水準例 | $\alpha = 0.05$(自由度 $k - 1 - c$) |
【8】分散の差の検定(等分散性の検定)
種類 | 検定統計量 | 分布 |
---|---|---|
2標本分散のF検定 | $\displaystyle F = \frac{s_1^2}{s_2^2}$ | $F(n_1-1,;n_2-1)$ |
【8.1】検定の目的
2つの母分散が等しいかどうかを検定する。
すなわち、
$$
H_0 : \sigma_1^2 = \sigma_2^2
\quad \text{vs.} \quad
H_1 : \sigma_1^2 \neq \sigma_2^2
$$
を検証する。
この検定は 「等分散性の検定」 と呼ばれ、
「分散の差の検定」とほぼ同義と考えてよい。
【8.2】検定統計量
標本分散の比を用いて次のように定義する:
$$
F = \frac{s_1^2}{s_2^2}
$$
帰無仮説 $H_0$ が真のとき、
$$
F \sim F(n_1 - 1,; n_2 - 1)
$$
に従う。
【8.3】信頼区間による判定(母分散比の区間推定)
有意水準 $\alpha$ の両側検定においては、次の範囲にF値があれば帰無仮説を棄却しない:
$$
F_{1-\alpha/2}(n_1-1, n_2-1)
< F <
F_{\alpha/2}(n_1-1, n_2-1)
$$
一方、次のいずれかの条件を満たす場合には帰無仮説を棄却する:
$$
F \le F_{1-\alpha/2}(n_1-1, n_2-1)
\quad \text{または} \quad
F \ge F_{\alpha/2}(n_1-1, n_2-1)
$$
ただし、F分布は非対称であるため、次の関係が成り立つ:
$$
F_{1-\alpha/2}(n_1-1, n_2-1)=
\frac{1}{F_{\alpha/2}(n_2-1, n_1-1)}
$$
【8.4】判定基準(信頼区間または棄却域による判断)
F値の位置関係 | 解釈 | 検定結果 |
---|---|---|
$F_{1-\alpha/2}(n_1-1,n_2-1) < $ $F < $ $F_{\alpha/2}(n_1-1,n_2-1)$ |
「2群の分散に有意な差がない可能性を否定できない」 | 帰無仮説を棄却しない |
$F \le F_{1-\alpha/2}(n_1-1,n_2-1)$ または $F \ge F_{\alpha/2}(n_1-1,n_2-1)$ |
「2群の分散に有意な差がある」 | 帰無仮説を棄却する |
【8.5】検定のまとめ
項目 | 内容 |
---|---|
用途 | 2群の母分散が等しい(等分散)かを検定する |
帰無仮説 | $H_0 : \sigma_1^2 = \sigma_2^2$ |
対立仮説 | $H_1 : \sigma_1^2 \neq \sigma_2^2$(両側)または $H_1 : \sigma_1^2 > \sigma_2^2$, $H_1 : \sigma_1^2 < \sigma_2^2$(片側) |
検定統計量 | $F = \dfrac{s_1^2}{s_2^2}$($s_1^2 \ge s_2^2$ とする) |
分布 | F分布 $F(n_1-1, n_2-1)$ |
棄却域(両側検定) | $F_{1-\alpha/2}(n_1-1, n_2-1) < F < F_{\alpha/2}(n_1-1, n_2-1)$ の範囲内なら棄却しない (ただし $F_{1-\alpha/2}(n_1-1,n_2-1)=1/F_{\alpha/2}(n_2-1,n_1-1)$) |
判定基準 | 棄却域の外側にF値があれば帰無仮説を棄却 |
有意水準例 | $\alpha=0.05$(95%信頼区間 → $F_{0.025}, F_{0.975}$ を使用) |
【9】代表的な分布と関係
分布 | 定義 |
---|---|
χ²分布 | $\chi^2=\sum Z_i^2$ |
t分布 | $t=\dfrac{Z}{\sqrt{U/\nu}}$ |
F分布 | $F=\dfrac{(U_1/\nu_1)}{(U_2/\nu_2)}$ |
関係式 | $Z^2 \sim \chi^2(1)$, $\dfrac{\chi^2/m}{\chi^2/n} \sim F(m,n)$ |
【10】p値の定義
帰無仮説が正しいと仮定したとき、観測された検定統計量以上に極端な値が出る確率。
【11】検定の精度評価(ROC曲線と検出力)
概念 | 意味 | ROCとの関係 | 帰無仮説との関係 |
---|---|---|---|
偽陽性率 (FPR) | 陰性を誤って陽性と判断する確率(=1−特異度) | ROC曲線のX軸 | 帰無仮説が真なのに誤って棄却(第Ⅰ種の過誤α) |
真陽性率 (TPR) | 陽性を正しく陽性と判断する確率(=感度) | ROC曲線のY軸 | 帰無仮説が偽のときに正しく棄却(検出力1−β) |
第Ⅰ種の過誤 (α) | 実際は陰性なのに「陽性」と誤る確率 | FPRに対応 | 帰無仮説が真のときに誤って棄却 |
第Ⅱ種の過誤 (β) | 実際は陽性なのに「陰性」と誤る確率 | 1−TPRに対応 | 帰無仮説が偽のときに棄却しない誤り |
ROC曲線 | 閾値を変化させたときの (FPR, TPR) の関係 | 有意水準αと検出力1−βの関係を可視化 | 検定の「判定閾値」を変化させた場合の性能 |
AUC | ROC曲線下の面積(検定性能の総合指標) | AUC=1:完全識別 0.5:ランダム |
帰無仮説を適切に棄却できる能力(検出力) |
完全識別線 | 誤判定ゼロの理想的モデル | 左上に張り付く曲線(TPR=1, FPR=0) | 理想的な検定(α=0, β=0) |
【11.1】ROC曲線の軸の調整
ROC曲線は通常、
横軸を 偽陽性率(FPR = α)、縦軸を 真陽性率(TPR = 1−β) として表される:
$$
(x, y) = (\alpha, 1 - \beta)
$$
このとき、軸を入れ替えて
横軸に 偽陰性率(β)、縦軸に 真陰性率(1−α) をとると:
$$
(x', y') = (\beta, 1 - \alpha)
$$
となる。
この2つの座標系には次の関係がある:
$$
(x', y') = (1 - y, 1 - x)
$$
つまり、ROC曲線は 直線 ( y = 1 - x ) に対して線対称となる。
Ⅵ. 回帰・相関(Regression & Correlation)
【1】共分散・相関係数
$$
Cov(X,Y)=\frac{1}{n-1}\sum(X_i-\bar{X})(Y_i-\bar{Y})
$$
$$
r=\frac{Cov(X,Y)}{s_Xs_Y}
$$
- $r=1$:完全正の相関
- $r=0$:相関なし
- $r=-1$:完全負の相関
【2】回帰直線(最小二乗法)
$$
\hat{Y}=a+bX
$$
$$
b=\frac{Cov(X,Y)}{V(X)},\quad a=\bar{Y}-b\bar{X}
$$
【3】決定係数
$$
R^2 = r^2
$$
- 1に近いほど回帰の当てはまりが良い。
- 「説明変数が目的変数をどの程度説明しているか」の指標。
【4】単回帰係数の検定(傾きの有意性の検定)
【4.1】検定の目的
回帰直線の傾き($b$)が 0(=XとYに関係がない)かどうかを検定する。
$$
H_0 : \beta_1 = 0
\quad \text{vs} \quad
H_1 : \beta_1 \ne 0
$$
【4.2】検定統計量
$$
t = \frac{b - 0}{SE(b)}
$$
ここで、
- $b$:標本から得られた回帰係数(傾きの推定値)
- $SE(b)$:傾きの標準誤差
このとき、
$$
t \sim t(n - 2)
$$
(自由度は「データ数 − 回帰に使った係数の数」=$n - 2$)
【4.3】棄却基準と解釈
判定基準 | 解釈 | 検定結果 |
---|---|---|
$ | t | < t_{\alpha/2, n-2}$ | 傾きに有意差なし | 帰無仮説を棄却しない |
$ | t | \ge t_{\alpha/2, n-2}$ | 傾きに有意差あり(XとYに線形関係あり) | 帰無仮説を棄却する |
【4.4】例題形式(今回のようなケース)
傾きの推定値 $b = -0.14510$
標準誤差 $SE(b) = 0.02916$
標本サイズ $n = 26$
検定統計量:
$$
t = \frac{-0.14510}{0.02916} = -4.98
$$
自由度:
$$
df = n - p(説明変数の数) - 1 = 24
$$
したがって、
$$
t = -4.98 \sim t(24)
$$
有意水準5%(両側)の臨界値 $t_{0.025, 24} \approx 2.064$ より絶対値が大きいので、
帰無仮説 $H_0: \beta_1=0$ を棄却。
【4.5】まとめ
項目 | 内容 |
---|---|
検定の目的 | 回帰係数(傾き)が0かどうかを確認 |
帰無仮説 | $H_0: \beta_1 = 0$ |
対立仮説 | $H_1: \beta_1 \ne 0$ |
検定統計量 | $t = \dfrac{b}{SE(b)}$ |
分布 | t分布(自由度$n-2$) |
判定基準 | $|t| > t_{\alpha/2, n-2}$ なら棄却 |
意味 | 傾きが有意なら、説明変数XはYに有意な影響を持つ |
【5】統計ソフトウェア
単回帰モデルの式
$$
Y_i = a + bX_i + \varepsilon_i
$$
記号 | 名称 | 意味 |
---|---|---|
$Y_i$ | 目的変数(被説明変数) | (i)番目の観測における説明される値 |
$X_i$ | 説明変数(独立変数) | (i)番目の観測における説明する値 |
$a$ | 切片($Intercept$) | $X=0$ のときの $Y$の理論的平均値(母パラメータ (\beta_0) の推定値) |
$b$ | 傾き($Slope$) | $X$ が1単位増加したときの $Y$ の平均的変化量(母パラメータ ($\beta_1$) の推定値) |
$\varepsilon_i$ | 誤差項($Error term$) | 回帰式で説明できない偶然的な誤差・外的要因 |
標本からの推定式(回帰直線)
標本データから最小二乗法で推定したもの:
$$
\hat{Y}_i = a + bX_i
$$
- ( $a$ ) は切片の推定値($\hat{\beta_0}$)
- ( $b$ ) は傾きの推定値($\hat{\beta_1}$)
- ( $\hat{Y}_i$ ) は推定値(予測値)
- ( $e_i = Y_i - \hat{Y}_i$ ) は残差($residual$)
統計ソフトウェアの出力結果
区分 | 項目 | 内容・値 |
---|---|---|
残差 (Residuals) |
最小値 (Min) | -33.650 |
第1四分位数 (1Q) | -10.471 | |
中央値 (Median) | -0.816 | |
第3四分位数 (3Q) | 8.079 | |
最大値 (Max) | 44.298 | |
回帰係数 (Coefficients) |
||
切片 (Intercept) |
推定値 (Estimate) = 切片$a$ | 121.052 |
標準誤差 (Std. Error) | 3.639 | |
t値 (t value) | 33.26 | |
有意確率 (Pr(>|t|)) | < 2e-16(非常に有意) | |
説明変数 | 推定値 (Estimate) = 傾き$b$ | -60.263 |
標準誤差 (Std. Error) | 4.414 | |
t値 (t value) | -13.65 | |
有意確率 (Pr(>|t|)) | < 2e-16(有意) | |
全体の統計量 | 残差の標準誤差 (Residual standard error) |
13.41(自由度195) |
重相関R² (Multiple R-squared) |
0.4868(約49%の説明力) | |
自由度調整済みR² (Adjusted R-squared) |
0.4861 | |
F値(モデル全体の有意性) (F-statistic) |
186.4(自由度1と195) | |
p値 (p-value) |
< 2.2e-16(モデル全体が有意) |
列 | Intercept(切片)での意味 |
---|---|
Estimate = 121.052 | 切片((X=0) のときの (Y) の平均値) |
Std. Error = 3.639 | その切片の推定精度のばらつき |
t value = 33.26 | $t = \frac{\text{Estimate}}{\text{Std.Error}} = \frac{121.052}{3.639} = 33.26$ |
Pr(>|t| ) < 2e-16 | 「切片=0」ではないと強く言える(非常に有意) |
列 | 説明変数での意味 |
---|---|
Estimate = -60.263 | 傾き(Xが1増えるとYが60.26減少) |
Std. Error = 4.414 | 傾きの推定精度のばらつき |
t value = -13.65 | $t = \frac{\text{Estimate}}{\text{Std.Error}} = \frac{-60.263}{4.414} = -13.65$ |
Pr(>|t| ) < 2e-16 | 傾きは0ではない → XはYに有意に影響する |
【6】信頼区間を求める式(単回帰直線)
【6.1】回帰式
$$
\hat{Y} = a + bX
$$
ここで、
- ($a$):切片(Intercept)
- ($b$):傾き(Slope, 回帰係数)
- ($SE(a)), (SE(b)$):それぞれの標準誤差
【6.2】回帰係数 (b) の信頼区間
母集団の真の回帰係数 ($\beta$) に対して、
標本から推定した ($b$) の信頼区間は次のように表されます:
$$
\boxed{
b \pm t_{1-\alpha/2,\nu} \times SE(b)
}
$$
ここで:
- $t_{1-\alpha/2$,\nu}$: 自由度 $\nu=n-p(説明変数の数)-1$ の t分布に基づく臨界値
- $SE(b)$:傾きの標準誤差
- 信頼水準 90% の場合、自由度が十分大きければ ($t_{0.95} \approx 1.645$)
【6.3】切片 (a) の信頼区間
同様に、母集団の切片 ($\alpha$) に対して:
$$
\boxed{
a \pm t_{1-\alpha/2,\nu} \times SE(a)
}
$$
【6.4】分散分析表
要因 | 平方和 (Sum of Squares, SS) |
自由度 (df) |
平均平方 (Mean Square, MS) |
F値 (検定統計量) |
Pr(>F) |
---|---|---|---|---|---|
回帰 (Regression) |
$SS_{\text{Regression}}$ | $p$=説明変数の数 | $\dfrac{SS_{\text{Regression}}}{1}$ | $\dfrac{MS_{\text{Regression}}}{MS_{\text{Residual}}}$ | $Pr$ |
残差 (Residual / Error) |
$SS_{\text{Residual}}$ | $n - p - 1$ | $\dfrac{SS_{\text{Residual}}}{n - 2}$ | — | — |
全体 (Total) |
$SS_{\text{Total}}$ | $n - 1$ | — | — | — |
【7】一元配置分散分析
【7.1】分散分析表
要因 | 平方和 (Sum of Squares, SS) |
自由度 (df) |
平均平方 (Mean Square, MS) |
F値 (検定統計量) |
Pr(>F) |
---|---|---|---|---|---|
水準間 (Between groups) |
$SS_{\text{Between}}$ | $k-1$ | $\frac{SS_{\text{Between}}}{k-1}$ | $\frac{SS_{\text{Between}}/{k-1}}{SS_{\text{Within}}/{n-k}}$ | $Pr$ |
水準内 (Within groups / 残差) |
$SS_{\text{Within}}$ | $n-k$ | $\frac{SS_{\text{Within}}}{n-k}$ | — | — |
全体 (Total) |
$SS_{\text{Total}}$ | $n-1$ | — | — | — |
日本語表記 | 意味 |
---|---|
水準間 | 各水準(地域など)の平均の差による変動 |
水準内(残差) | 各水準内のばらつき(個々の誤差) |
全体 | 全データのばらつき全体(=水準間+水準内) |
関係式の確認
(1)平方和(Sum of Squares)
名称 | 記号 | 定義式 | 意味 |
---|---|---|---|
全体平方和(Total Sum of Squares) | $SS_{\text{Total}}$ | $ \displaystyle SS_{\text{Total}} = \sum_{i=1}^{k}\sum_{j=1}^{n_i} (X_{ij} - \bar{X}_{..})^2 $ | データ全体のばらつき |
水準間平方和(Between Groups) | $SS_{\text{Between}}$ | $ \displaystyle SS_{\text{Between}} = \sum_{i=1}^{k} n_i (\bar{X}{i.} - \bar{X}{..})^2 $ | 各水準(群)の平均の違いによるばらつき |
水準内平方和(Within Groups / 残差) | $SS_{\text{Within}}$ | $ \displaystyle SS_{\text{Within}} = \sum_{i=1}^{k}\sum_{j=1}^{n_i} (X_{ij} - \bar{X}_{i.})^2 $ | 各群の内部でのばらつき(誤差) |
$$
\boxed{SS_{\text{Total}} = SS_{\text{Between}} + SS_{\text{Within}}}
$$
(2)自由度(Degrees of Freedom)
名称 | 記号 | 式 |
---|---|---|
全体自由度 | $df_{\text{Total}}$ | (N - 1) |
水準間自由度 | $df_{\text{Between}}$ | (k - 1) |
水準内自由度 | $df_{\text{Within}}$ | (N - k) |
$$
\boxed{df_{\text{Total}} = df_{\text{Between}} + df_{\text{Within}}}
$$
(3)平均平方(Mean Squares)
$$
MS_{\text{Between}} = \frac{SS_{\text{Between}}}{df_{\text{Between}}}, \quad
MS_{\text{Within}} = \frac{SS_{\text{Within}}}{df_{\text{Within}}}
$$
(4)F値(検定統計量)
$$
\boxed{F = \frac{MS_{\text{Between}}}{MS_{\text{Within}}}}
$$
(5)帰無仮説と棄却条件(統計検定2級で必須)
項目 | 内容 |
---|---|
帰無仮説 | すべての母平均は等しい($H_0: \mu_1 = \mu_2 = ... = \mu_k$) |
対立仮説 | いずれかの母平均は異なる($H_1:$ 少なくとも1つは異なる) |
棄却条件 | $F_{\text{計算値}} > F_{\alpha,,k-1,,N-k}$のとき、$H_0$を棄却(有意) |