0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

[Statistics] 公式 / 原理 / 原則 / 手法

Last updated at Posted at 2025-10-11

Ⅰ. 標本調査(Sampling)

【1】抽出法の種類

抽出法 特徴 出題例
単純無作為抽出法 母集団の全要素が等確率で選ばれる 「乱数表で標本を抽出」
系統抽出法 一定間隔で抽出(例:10人ごとに1人) 「名簿から等間隔抽出」
層化抽出法 層(性別・地域など)ごとに無作為抽出 「性別ごとに抽出」
集団抽出法 集団単位(例:学校)を選び、その全体を調査 「いくつかの学校を選び全生徒調査」
多段抽出法 複数段階で抽出(例:地域→学校→生徒) 「地域→学校→生徒の順で抽出」

【2】フィッシャーの3原則(実験計画の基礎)

原則 意味
無作為化 偏りを防ぎ外的要因を平均化
局所管理 同条件グループ化(ブロック化)で誤差減少
反復 同じ処理を複数回実施し偶然誤差を評価

Ⅱ. 記述統計(Descriptive Statistics)

【1】代表値・散布度

指標 定義 特徴
平均 $\displaystyle \bar{X}=\frac{1}{n}\sum X_i$ 中心的傾向
分散 $\displaystyle s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$ ばらつきの平方平均(不偏推定)
標準偏差 $s=\sqrt{s^2}$ 単位が元のデータと同じ
変動係数 $\displaystyle CV=\frac{s}{\bar{X}}$ 比較用の相対的ばらつき
四分位範囲 $IQR = Q_3 - Q_1$ 中央50%の範囲

【2】分布の形状

指標 意味 解釈
歪度(Skewness) 分布の非対称性 $g_1>0$:右裾長い/$g_1<0$:左裾長い
尖度(Kurtosis) 分布の尖り具合 $g_2>0$:とがっている/$g_2<0$:平ら

【3】母集団と標本の関係

概念 数式 説明
母平均 $\mu = E[X] = \frac{1}{N}\sum X_i$ 母集団の平均
母分散 $\sigma^2 = E[(X-\mu)^2]$ 母集団全体のばらつき
標本平均 $\bar{X}=\frac{1}{n}\sum X_i$ 母平均の推定量
標本分散 $s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$ 不偏推定量 ($E[s^2]=\sigma^2$)

【4】標準誤差(推定精度の指標)

$$
SE = \frac{s}{\sqrt{n}}
$$

  • 標本サイズが大きいほど小さい(精度が上がる)

Ⅲ. 確率(Probability)

【1】確率の基本法則

加法定理

$$
P(A\cup B)=P(A)+P(B)-P(A\cap B)
$$

条件付き確率

$$
P(A|B)=\frac{P(A\cap B)}{P(B)}
$$

独立性

$$
P(A\cap B)=P(A)P(B)
$$

ベイズの定理

$$
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
$$

【2】確率変数の期待値・分散・共分散

期待値(線形性)

$$
E(aX+bY+c)=aE(X)+bE(Y)+c
$$
$$
E(X + Y) = E(X) + E(Y)
$$
$$
E(XY) = E(X)E(Y)(独立なとき)
$$

分散の性質

$$
V[X] = E[X^2] - (E[X])^2
$$
$$
V(aX+b)=a^2V(X)
$$
$$
V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
$$
$$
V(X-Y)=V(X)+V(Y)-2Cov(X,Y)
$$

共分散と相関

$$
Cov(X,Y)=E[XY]-E[X]E[Y]
$$
$$
\mathrm{Cov}(X,X) = E[X^2] - (E[X])^2 = V[X]
$$
$$
Cov(aX + bY, cX - dY) = Cov(aX, cX) - Cov(aX, dY) + Cov(bY, cX) - Cov(bY, dY)
$$
$$
= acV(X) - adCov(X, Y) + bcCov(X, Y) - bdV(Y)
$$
$$
Cov(X, Y) = 0
$$
$$
\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}
$$

【3】代表的分布

分布 主な用途
二項分布 $P(X=k)={nCk}p^k(1-p)^{n-k}$ 成功回数の確率
ポアソン分布 $P(X=k)=\frac{\lambda^ke^{-\lambda}}{k!}$ 希少事象(例:事故件数)
正規分布 $Z=\frac{X-\mu}{\sigma}$ 標準化・近似の基礎

Ⅳ. 推定(Estimation)

【1】点推定

指標 備考
母平均の推定量 $\bar{X}$ 不偏推定量
母分散の推定量 $s^2$ 不偏推定量
母比率の推定量 $\hat{p}=X/n$ 標本比率

【2】区間推定(信頼区間)

対象 信頼区間 分布
母平均(母分散既知) $\displaystyle \bar{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$ 標準正規分布
母平均(母分散未知) $\displaystyle \bar{X}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}$ t分布(自由度$n-1$)
母比率 $\displaystyle \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ 標準正規分布

【補足】臨界値(Critical Value)の定義

$Z_{\alpha/2}$・$t_{\alpha/2}$ は、
有意水準 $\alpha$ において 両側検定で上側確率が $\alpha/2$ となる点(臨界値)を意味する。
分布表から求めることで、信頼区間の幅を決定する。

分布 記号 有意水準 $\alpha=0.05$ の場合 備考
標準正規分布 $Z_{\alpha/2}$ $Z_{0.025}=1.96$ 標本数が十分大きい場合や母分散既知の場合に使用
t分布(自由度10) $t_{\alpha/2,\nu}$ $t_{0.025,10}=2.228$ 標本数が小さく母分散未知の場合に使用

【補足】信頼区間と有意水準の関係(両側検定)

信頼区間と有意水準の関係は次の通りです:

信頼水準 有意水準 $\alpha$ 両側の端(片側確率 $\alpha/2$) 標準正規分布の臨界値($Z_{\alpha/2}$) 意味
90% 0.10 0.05 1.645 両側5%ずつを除いた中心90%の範囲
95% 0.05 0.025 1.96 両側2.5%ずつを除いた中心95%の範囲
99% 0.01 0.005 2.576 両側0.5%ずつを除いた中心99%の範囲

【補足】信頼区間を求める式(一般形)

$$
\boxed{
\text{推定値} \pm (\text{臨界値}) \times (\text{標準誤差})
}
$$

例:標本平均や回帰係数の90%信頼区間では、

$$
\hat{\theta} \pm 1.645 \times SE(\hat{\theta})
$$

または、母分散未知・小標本では

$$
\hat{\theta} \pm t_{1-\alpha/2,\nu} \times SE(\hat{\theta})
$$

Ⅴ. 検定(Hypothesis Testing)

【1】検定の流れ

【1.1】検定統計量を用いる場合

手順

  1. 検定統計量(t値・χ²値・F値など)を計算する
  2. 自由度と有意水準 α から 臨界値 を分布表で調べる
  3. 検定統計量と臨界値を比較する

棄却条件

検定の種類 棄却条件(帰無仮説を棄却する場合)
t検定 $| t | > t_{α/2, ν}$
χ²検定 $χ² > χ²_{α, ν}$
F検定 $F > F_{α, ν_1, ν_2}$

【1.2】P値を用いる場合

手順

  1. 検定統計量(t, χ², Fなど)を求める
  2. その値に対応する p値(片側または両側の確率) を計算する
  3. 設定した有意水準 α と比較する

棄却条件

条件 意味
p値 < α 「これほど極端な値は確率的に滅多に起きない」→ 帰無仮説を棄却(有意)
p値 ≥ α 「この程度の値は普通に起こりうる」→ 帰無仮説を棄却できない(有意でない)

【2】母平均の検定

条件 検定統計量 分布
母分散既知 $Z=\dfrac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$ $N(0,1)$
母分散未知 $t=\dfrac{\bar{X}-\mu_0}{s/\sqrt{n}}$ $t(n-1)$

【3】母平均の差の検定

条件 検定統計量 分布
母分散既知 $\displaystyle Z=\frac{\bar{X}_1-\bar{X}_2}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}$ 標準正規分布 $N(0,1)$
母分散未知(Welch) $\displaystyle t=\frac{\bar{X}_1-\bar{X}_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}}$ $t(\nu)$分布(Welchの自由度)
母分散未知・等分散(Student) $\displaystyle t=\frac{\bar{X}_1-\bar{X}_2}{s_p\sqrt{1/n_1+1/n_2}}$
ただし $\displaystyle s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$
$t(n_1+n_2-2)$
母分散未知・等分散(Student)展開形 $\displaystyle t=\frac{\bar{X}_1-\bar{X}_2}{\sqrt{\left(\frac{1}{n_1}+\frac{1}{n_2}\right)\frac{\sum(X_1i-\bar{X}_1)^2+\sum({X}_2i-\bar{X}_2)^2}{n_1+n_2-2}}}$ $t(n_1+n_2-2)$

【4】母比率の検定

種類 検定統計量 分布
1標本比率のZ検定 $Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}$ $N(0,1)$

【5】母比率の差の検定

種類 検定統計量 分布
2標本比率のZ検定 $Z=\dfrac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}_1(1-\hat{p}_1)/n_1+\hat{p}_2(1-\hat{p}_2)/n_2}}$ $N(0,1)$

【5.1】信頼区間による判定

2つの母比率の差に対する $(1-\alpha)\times100%$ 信頼区間は次の式で表される:

$$
(\hat{p}_1 - \hat{p}*2)
\pm
Z _{\alpha/2}
\sqrt{
\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1}
+
\frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}
}
$$

ここで、
$Z_{\alpha/2}$ は標準正規分布の上側確率 $\alpha/2$ に対応する値。
例:95%信頼区間なら $Z_{0.025}=1.96$。

【5.2】判定基準(信頼区間による帰無仮説の判断)

信頼区間 解釈 検定結果
0 を含む 「2群の比率に有意な差がない可能性を否定できない」 帰無仮説を棄却しない
0 を含まない 「2群の比率に有意な差がある」 帰無仮説を棄却する

【5.3】検定のまとめ

項目 内容
用途 2群(例:男女、地域AとB)の母比率が等しいかを検定
帰無仮説 $H_0 : p_1 = p_2$
対立仮説 $H_1 : p_1 \neq p_2$(両側)または $p_1 > p_2$, $p_1 < p_2$(片側)
検定統計量 $Z=\dfrac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}_1(1-\hat{p}_1)/n_1+\hat{p}_2(1-\hat{p}_2)/n_2}}$
判定基準 信頼区間が 0 を含まなければ帰無仮説を棄却
分布 標準正規分布 $N(0,1)$
有意水準例 $\alpha=0.05$(95%信頼区間 → $Z_{0.025}=1.96$)

【6】分散の検定

種類 検定統計量 分布
1標本分散のχ²検定 $\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$ $\chi^2(n-1)$

【6.1】検定の目的

1つの標本が得られたとき、その母集団の分散が既知の値(または仮定された値)と一致するかどうかを検定する。
すなわち:

$$
H_0 : \sigma^2 = \sigma_0^2
\quad \text{vs.} \quad
H_1 : \sigma^2 \neq \sigma_0^2
$$

を検証する。
この検定は「母分散の検定」または「適合度の検定(1標本の分散検定)」と呼ばれる。

【6.2】検定統計量

標本分散 ( s^2 ) を用いて、次のように定義する:

$$
\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}
$$

帰無仮説 ( H_0 ) が真のとき、標本分散は母分散に比例して分布し、

$$
\chi^2 \sim \chi^2(n-1)
$$

に従う。
ここで、自由度 ( $n-1$ ) は標本平均の推定に1自由度を使用するため。

【6.3】信頼区間による判定(母分散の区間推定)

有意水準 ( $\alpha$ ) の両側検定において、母分散の $(1-\alpha)\times100%$ 信頼区間は次の式で表される:

$$
\frac{(n-1)s^2}{\chi^2_{\alpha/2}} < \sigma^2 < \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}
$$

ここで、( $\chi^2_{\alpha/2}$ ) および ( $\chi^2_{1-\alpha/2}$ ) は、それぞれ上側・下側の臨界値。

【6.4】棄却域による判定(両側検定)

有意水準 ( $\alpha$ ) のもとで、
次の範囲に χ²値が入っていれば帰無仮説を棄却しない

$$
\chi^2_{1-\alpha/2}(n-1)
< \frac{(n-1)s^2}{\sigma_0^2} <
\chi^2_{\alpha/2}(n-1)
$$

一方、次のいずれかの場合には帰無仮説を棄却する

$$
\frac{(n-1)s^2}{\sigma_0^2} \le \chi^2_{1-\alpha/2}(n-1)
\quad \text{または} \quad
\frac{(n-1)s^2}{\sigma_0^2} \ge \chi^2_{\alpha/2}(n-1)
$$

【6.5】判定基準

χ²値の位置関係 解釈 検定結果
$\chi^2_{1-\alpha/2}(n-1) < \chi^2 < \chi^2_{\alpha/2}(n-1)$ 「母分散が仮定値と有意に異ならない可能性を否定できない」 帰無仮説を棄却しない
$\chi^2 \le \chi^2_{1-\alpha/2}(n-1)$ または $\chi^2 \ge \chi^2_{\alpha/2}(n-1)$ 「母分散が仮定値と有意に異なる」 帰無仮説を棄却する

【6.6】検定のまとめ

項目 内容
用途 1群の母分散が既知または仮定された値に等しいかを検定する(ばらつきの大きさの検定)
帰無仮説 $H_0 : \sigma^2 = \sigma_0^2$
対立仮説 $H_1 : \sigma^2 \neq \sigma_0^2$(両側)または $H_1 : \sigma^2 > \sigma_0^2$, $H_1 : \sigma^2 < \sigma_0^2$(片側)
検定統計量 $\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$
分布 カイ二乗分布 $\chi^2(n-1)$
棄却域(両側検定) $\chi^2_{1-\alpha/2}(n-1) < \chi^2 < \chi^2_{\alpha/2}(n-1)$ の範囲内なら棄却しない
判定基準 棄却域の外側にχ²値があれば帰無仮説を棄却
有意水準例 $\alpha=0.05$(95%信頼区間 → $\chi^2_{0.025}, \chi^2_{0.975}$ を使用)

【7】分散の検定(適合度の検定)

種類 検定統計量 分布
適合度のχ²検定 $\displaystyle \chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}$ $\chi^2(k - 1 - c)$

【7.1】検定の目的

観測度数 ( $O_i$ ) が理論的に期待される度数 ( $E_i$ ) に従っているかを検定する。
(例:サイコロの出目が均等か、観測値が二項分布やポアソン分布に適合しているか、など)

$$
H_0 : O_i \text{ は } E_i \text{ に従う(理論分布に適合する)}
$$

【7.2】検定統計量

$$
\chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}
$$

ここで:

  • ( $O_i$ ):観測度数
  • ( $E_i$ ):理論分布に基づく期待度数
  • ( $k$ ):区分の数
  • ( $c$ ):推定した母数の数(例:正規分布なら平均・分散の2つ)

したがって自由度は:

$$
\text{df} = k - 1 - c
$$

【7.3】棄却域による判定

有意水準 ( $\alpha$ ) のもとで:

$$
\chi^2 < \chi^2_{\alpha}(k - 1 - c)
$$

であれば帰無仮説を棄却しない
逆に:

$$
\chi^2 \ge \chi^2_{\alpha}(k - 1 - c)
$$

であれば帰無仮説を棄却する

【7.4】判定基準

χ²値と臨界値の関係 解釈 検定結果
$\chi^2 < \chi^2_{\alpha}(k - 1 - c)$ 理論分布と観測分布のズレは偶然の範囲内 帰無仮説を棄却しない
$\chi^2 \ge \chi^2_{\alpha}(k - 1 - c)$ 理論分布と観測分布に有意な差がある 帰無仮説を棄却する

【7.5】検定のまとめ

項目 内容
用途 観測データが理論分布に適合しているかを検定
帰無仮説 $H_0 : O_i = E_i$(観測度数は理論値と一致)
対立仮説 $H_1 : O_i \neq E_i$(観測度数は理論値と異なる)
検定統計量 $\chi^2 = \sum_{i=1}^k \dfrac{(O_i - E_i)^2}{E_i}$
分布 カイ二乗分布 $\chi^2(k - 1 - c)$
棄却域 $\chi^2 \ge \chi^2_{\alpha}$ なら帰無仮説を棄却
有意水準例 $\alpha = 0.05$(自由度 $k - 1 - c$)

【8】分散の差の検定(等分散性の検定)

種類 検定統計量 分布
2標本分散のF検定 $\displaystyle F = \frac{s_1^2}{s_2^2}$ $F(n_1-1,;n_2-1)$

【8.1】検定の目的

2つの母分散が等しいかどうかを検定する。
すなわち、
$$
H_0 : \sigma_1^2 = \sigma_2^2
\quad \text{vs.} \quad
H_1 : \sigma_1^2 \neq \sigma_2^2
$$
を検証する。

この検定は 「等分散性の検定」 と呼ばれ、
「分散の差の検定」とほぼ同義と考えてよい。

【8.2】検定統計量

標本分散の比を用いて次のように定義する:

$$
F = \frac{s_1^2}{s_2^2}
$$

帰無仮説 $H_0$ が真のとき、
$$
F \sim F(n_1 - 1,; n_2 - 1)
$$
に従う。

【8.3】信頼区間による判定(母分散比の区間推定)

有意水準 $\alpha$ の両側検定においては、次の範囲にF値があれば帰無仮説を棄却しない

$$
F_{1-\alpha/2}(n_1-1, n_2-1)
< F <
F_{\alpha/2}(n_1-1, n_2-1)
$$

一方、次のいずれかの条件を満たす場合には帰無仮説を棄却する

$$
F \le F_{1-\alpha/2}(n_1-1, n_2-1)
\quad \text{または} \quad
F \ge F_{\alpha/2}(n_1-1, n_2-1)
$$

ただし、F分布は非対称であるため、次の関係が成り立つ:

$$
F_{1-\alpha/2}(n_1-1, n_2-1)=
\frac{1}{F_{\alpha/2}(n_2-1, n_1-1)}
$$

【8.4】判定基準(信頼区間または棄却域による判断)

F値の位置関係 解釈 検定結果
$F_{1-\alpha/2}(n_1-1,n_2-1) < $
$F < $
$F_{\alpha/2}(n_1-1,n_2-1)$
「2群の分散に有意な差がない可能性を否定できない」 帰無仮説を棄却しない
$F \le F_{1-\alpha/2}(n_1-1,n_2-1)$
または
$F \ge F_{\alpha/2}(n_1-1,n_2-1)$
「2群の分散に有意な差がある」 帰無仮説を棄却する

【8.5】検定のまとめ

項目 内容
用途 2群の母分散が等しい(等分散)かを検定する
帰無仮説 $H_0 : \sigma_1^2 = \sigma_2^2$
対立仮説 $H_1 : \sigma_1^2 \neq \sigma_2^2$(両側)または $H_1 : \sigma_1^2 > \sigma_2^2$, $H_1 : \sigma_1^2 < \sigma_2^2$(片側)
検定統計量 $F = \dfrac{s_1^2}{s_2^2}$($s_1^2 \ge s_2^2$ とする)
分布 F分布 $F(n_1-1, n_2-1)$
棄却域(両側検定) $F_{1-\alpha/2}(n_1-1, n_2-1) < F < F_{\alpha/2}(n_1-1, n_2-1)$ の範囲内なら棄却しない
(ただし $F_{1-\alpha/2}(n_1-1,n_2-1)=1/F_{\alpha/2}(n_2-1,n_1-1)$)
判定基準 棄却域の外側にF値があれば帰無仮説を棄却
有意水準例 $\alpha=0.05$(95%信頼区間 → $F_{0.025}, F_{0.975}$ を使用)

【9】代表的な分布と関係

分布 定義
χ²分布 $\chi^2=\sum Z_i^2$
t分布 $t=\dfrac{Z}{\sqrt{U/\nu}}$
F分布 $F=\dfrac{(U_1/\nu_1)}{(U_2/\nu_2)}$
関係式 $Z^2 \sim \chi^2(1)$, $\dfrac{\chi^2/m}{\chi^2/n} \sim F(m,n)$

【10】p値の定義

帰無仮説が正しいと仮定したとき、観測された検定統計量以上に極端な値が出る確率。

【11】検定の精度評価(ROC曲線と検出力)

概念 意味 ROCとの関係 帰無仮説との関係
偽陽性率 (FPR) 陰性を誤って陽性と判断する確率(=1−特異度) ROC曲線のX軸 帰無仮説が真なのに誤って棄却(第Ⅰ種の過誤α)
真陽性率 (TPR) 陽性を正しく陽性と判断する確率(=感度) ROC曲線のY軸 帰無仮説が偽のときに正しく棄却(検出力1−β)
第Ⅰ種の過誤 (α) 実際は陰性なのに「陽性」と誤る確率 FPRに対応 帰無仮説が真のときに誤って棄却
第Ⅱ種の過誤 (β) 実際は陽性なのに「陰性」と誤る確率 1−TPRに対応 帰無仮説が偽のときに棄却しない誤り
ROC曲線 閾値を変化させたときの (FPR, TPR) の関係 有意水準αと検出力1−βの関係を可視化 検定の「判定閾値」を変化させた場合の性能
AUC ROC曲線下の面積(検定性能の総合指標) AUC=1:完全識別
0.5:ランダム
帰無仮説を適切に棄却できる能力(検出力)
完全識別線 誤判定ゼロの理想的モデル 左上に張り付く曲線(TPR=1, FPR=0) 理想的な検定(α=0, β=0)

【11.1】ROC曲線の軸の調整

ROC曲線は通常、
横軸を 偽陽性率(FPR = α)、縦軸を 真陽性率(TPR = 1−β) として表される:

$$
(x, y) = (\alpha, 1 - \beta)
$$

このとき、軸を入れ替えて
横軸に 偽陰性率(β)、縦軸に 真陰性率(1−α) をとると:

$$
(x', y') = (\beta, 1 - \alpha)
$$

となる。

この2つの座標系には次の関係がある:

$$
(x', y') = (1 - y, 1 - x)
$$

つまり、ROC曲線は 直線 ( y = 1 - x ) に対して線対称となる。

Ⅵ. 回帰・相関(Regression & Correlation)

【1】共分散・相関係数

$$
Cov(X,Y)=\frac{1}{n-1}\sum(X_i-\bar{X})(Y_i-\bar{Y})
$$
$$
r=\frac{Cov(X,Y)}{s_Xs_Y}
$$

  • $r=1$:完全正の相関
  • $r=0$:相関なし
  • $r=-1$:完全負の相関

【2】回帰直線(最小二乗法)

$$
\hat{Y}=a+bX
$$
$$
b=\frac{Cov(X,Y)}{V(X)},\quad a=\bar{Y}-b\bar{X}
$$

【3】決定係数

$$
R^2 = r^2
$$

  • 1に近いほど回帰の当てはまりが良い。
  • 「説明変数が目的変数をどの程度説明しているか」の指標。

【4】単回帰係数の検定(傾きの有意性の検定)

【4.1】検定の目的

回帰直線の傾き($b$)が 0(=XとYに関係がない)かどうかを検定する。

$$
H_0 : \beta_1 = 0
\quad \text{vs} \quad
H_1 : \beta_1 \ne 0
$$

【4.2】検定統計量

$$
t = \frac{b - 0}{SE(b)}
$$

ここで、

  • $b$:標本から得られた回帰係数(傾きの推定値)
  • $SE(b)$:傾きの標準誤差

このとき、
$$
t \sim t(n - 2)
$$
(自由度は「データ数 − 回帰に使った係数の数」=$n - 2$)

【4.3】棄却基準と解釈

判定基準 解釈 検定結果
$ | t | < t_{\alpha/2, n-2}$ 傾きに有意差なし 帰無仮説を棄却しない
$ | t | \ge t_{\alpha/2, n-2}$ 傾きに有意差あり(XとYに線形関係あり) 帰無仮説を棄却する

【4.4】例題形式(今回のようなケース)

傾きの推定値 $b = -0.14510$
標準誤差 $SE(b) = 0.02916$
標本サイズ $n = 26$

検定統計量:
$$
t = \frac{-0.14510}{0.02916} = -4.98
$$

自由度:
$$
df = n - p(説明変数の数) - 1 = 24
$$

したがって、
$$
t = -4.98 \sim t(24)
$$
有意水準5%(両側)の臨界値 $t_{0.025, 24} \approx 2.064$ より絶対値が大きいので、
帰無仮説 $H_0: \beta_1=0$ を棄却。

【4.5】まとめ

項目 内容
検定の目的 回帰係数(傾き)が0かどうかを確認
帰無仮説 $H_0: \beta_1 = 0$
対立仮説 $H_1: \beta_1 \ne 0$
検定統計量 $t = \dfrac{b}{SE(b)}$
分布 t分布(自由度$n-2$)
判定基準 $|t| > t_{\alpha/2, n-2}$ なら棄却
意味 傾きが有意なら、説明変数XはYに有意な影響を持つ

【5】統計ソフトウェア

単回帰モデルの式

$$
Y_i = a + bX_i + \varepsilon_i
$$

記号 名称 意味
$Y_i$ 目的変数(被説明変数) (i)番目の観測における説明される値
$X_i$ 説明変数(独立変数) (i)番目の観測における説明する値
$a$ 切片($Intercept$) $X=0$ のときの $Y$の理論的平均値(母パラメータ (\beta_0) の推定値)
$b$ 傾き($Slope$) $X$ が1単位増加したときの $Y$ の平均的変化量(母パラメータ ($\beta_1$) の推定値)
$\varepsilon_i$ 誤差項($Error term$) 回帰式で説明できない偶然的な誤差・外的要因

標本からの推定式(回帰直線)

標本データから最小二乗法で推定したもの:

$$
\hat{Y}_i = a + bX_i
$$

  • ( $a$ ) は切片の推定値($\hat{\beta_0}$)
  • ( $b$ ) は傾きの推定値($\hat{\beta_1}$)
  • ( $\hat{Y}_i$ ) は推定値(予測値)
  • ( $e_i = Y_i - \hat{Y}_i$ ) は残差($residual$)

統計ソフトウェアの出力結果

区分 項目 内容・値
残差
(Residuals)
最小値 (Min) -33.650
第1四分位数 (1Q) -10.471
中央値 (Median) -0.816
第3四分位数 (3Q) 8.079
最大値 (Max) 44.298
回帰係数
(Coefficients)
切片
(Intercept)
推定値 (Estimate) = 切片$a$ 121.052
標準誤差 (Std. Error) 3.639
t値 (t value) 33.26
有意確率 (Pr(>|t|)) < 2e-16(非常に有意)
説明変数 推定値 (Estimate) = 傾き$b$ -60.263
標準誤差 (Std. Error) 4.414
t値 (t value) -13.65
有意確率 (Pr(>|t|)) < 2e-16(有意)
全体の統計量 残差の標準誤差
(Residual standard error)
13.41(自由度195)
重相関R²
(Multiple R-squared)
0.4868(約49%の説明力)
自由度調整済みR²
(Adjusted R-squared)
0.4861
F値(モデル全体の有意性)
(F-statistic)
186.4(自由度1と195)
p値
(p-value)
< 2.2e-16(モデル全体が有意)
Intercept(切片)での意味
Estimate = 121.052 切片((X=0) のときの (Y) の平均値)
Std. Error = 3.639 その切片の推定精度のばらつき
t value = 33.26 $t = \frac{\text{Estimate}}{\text{Std.Error}} = \frac{121.052}{3.639} = 33.26$
Pr(>|t| ) < 2e-16 「切片=0」ではないと強く言える(非常に有意)
説明変数での意味
Estimate = -60.263 傾き(Xが1増えるとYが60.26減少)
Std. Error = 4.414 傾きの推定精度のばらつき
t value = -13.65 $t = \frac{\text{Estimate}}{\text{Std.Error}} = \frac{-60.263}{4.414} = -13.65$
Pr(>|t| ) < 2e-16 傾きは0ではない → XはYに有意に影響する

【6】信頼区間を求める式(単回帰直線)

【6.1】回帰式

$$
\hat{Y} = a + bX
$$

ここで、

  • ($a$):切片(Intercept)
  • ($b$):傾き(Slope, 回帰係数)
  • ($SE(a)), (SE(b)$):それぞれの標準誤差

【6.2】回帰係数 (b) の信頼区間

母集団の真の回帰係数 ($\beta$) に対して、
標本から推定した ($b$) の信頼区間は次のように表されます:

$$
\boxed{
b \pm t_{1-\alpha/2,\nu} \times SE(b)
}
$$

ここで:

  • $t_{1-\alpha/2$,\nu}$: 自由度 $\nu=n-p(説明変数の数)-1$ の t分布に基づく臨界値
  • $SE(b)$:傾きの標準誤差
  • 信頼水準 90% の場合、自由度が十分大きければ ($t_{0.95} \approx 1.645$)

【6.3】切片 (a) の信頼区間

同様に、母集団の切片 ($\alpha$) に対して:

$$
\boxed{
a \pm t_{1-\alpha/2,\nu} \times SE(a)
}
$$

【6.4】分散分析表

要因 平方和
(Sum of Squares, SS)
自由度
(df)
平均平方
(Mean Square, MS)
F値
(検定統計量)
Pr(>F)
回帰
(Regression)
$SS_{\text{Regression}}$ $p$=説明変数の数 $\dfrac{SS_{\text{Regression}}}{1}$ $\dfrac{MS_{\text{Regression}}}{MS_{\text{Residual}}}$ $Pr$
残差
(Residual / Error)
$SS_{\text{Residual}}$ $n - p - 1$ $\dfrac{SS_{\text{Residual}}}{n - 2}$
全体
(Total)
$SS_{\text{Total}}$ $n - 1$

【7】一元配置分散分析

【7.1】分散分析表

要因 平方和
(Sum of Squares, SS)
自由度
(df)
平均平方
(Mean Square, MS)
F値
(検定統計量)
Pr(>F)
水準間
(Between groups)
$SS_{\text{Between}}$ $k-1$ $\frac{SS_{\text{Between}}}{k-1}$ $\frac{SS_{\text{Between}}/{k-1}}{SS_{\text{Within}}/{n-k}}$ $Pr$
水準内
(Within groups / 残差)
$SS_{\text{Within}}$ $n-k$ $\frac{SS_{\text{Within}}}{n-k}$
全体
(Total)
$SS_{\text{Total}}$ $n-1$
日本語表記 意味
水準間 各水準(地域など)の平均の差による変動
水準内(残差) 各水準内のばらつき(個々の誤差)
全体 全データのばらつき全体(=水準間+水準内)

関係式の確認

(1)平方和(Sum of Squares)

名称 記号 定義式 意味
全体平方和(Total Sum of Squares) $SS_{\text{Total}}$ $ \displaystyle SS_{\text{Total}} = \sum_{i=1}^{k}\sum_{j=1}^{n_i} (X_{ij} - \bar{X}_{..})^2 $ データ全体のばらつき
水準間平方和(Between Groups) $SS_{\text{Between}}$ $ \displaystyle SS_{\text{Between}} = \sum_{i=1}^{k} n_i (\bar{X}{i.} - \bar{X}{..})^2 $ 各水準(群)の平均の違いによるばらつき
水準内平方和(Within Groups / 残差) $SS_{\text{Within}}$ $ \displaystyle SS_{\text{Within}} = \sum_{i=1}^{k}\sum_{j=1}^{n_i} (X_{ij} - \bar{X}_{i.})^2 $ 各群の内部でのばらつき(誤差)

$$
\boxed{SS_{\text{Total}} = SS_{\text{Between}} + SS_{\text{Within}}}
$$

(2)自由度(Degrees of Freedom)

名称 記号
全体自由度 $df_{\text{Total}}$ (N - 1)
水準間自由度 $df_{\text{Between}}$ (k - 1)
水準内自由度 $df_{\text{Within}}$ (N - k)

$$
\boxed{df_{\text{Total}} = df_{\text{Between}} + df_{\text{Within}}}
$$

(3)平均平方(Mean Squares)

$$
MS_{\text{Between}} = \frac{SS_{\text{Between}}}{df_{\text{Between}}}, \quad
MS_{\text{Within}} = \frac{SS_{\text{Within}}}{df_{\text{Within}}}
$$

(4)F値(検定統計量)

$$
\boxed{F = \frac{MS_{\text{Between}}}{MS_{\text{Within}}}}
$$

(5)帰無仮説と棄却条件(統計検定2級で必須)

項目 内容
帰無仮説 すべての母平均は等しい($H_0: \mu_1 = \mu_2 = ... = \mu_k$)
対立仮説 いずれかの母平均は異なる($H_1:$ 少なくとも1つは異なる)
棄却条件 $F_{\text{計算値}} > F_{\alpha,,k-1,,N-k}$のとき、$H_0$を棄却(有意)
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?