目的
-
良い統計的仮説検定を定義し、それを求める方法を学ぶ
- 良いとは何で定義されるか→検出力曲線
- 方法:Neymann-Pearsonの補題、尤度比検定
-
まずは仮説検定ってどんなだっけというところから、例:有意水準5%の母平均の両側検定を考える。
- 統計モデル:$X_1, ..., X_n \sim N(\mu, \sigma^2)$($\sigma$既知)
- 検定問題: 帰無仮説 $H_0: \mu = \mu_0$ vs. 対立仮説 $H_1: \mu \neq \mu_0$
上記検定問題を判断するのに検定統計量を「帰無仮説が正しい時にどうなるか」を調べる。つまり、帰無仮説が正しいときの分布=帰無分布のもとで以下の検定統計量を考える。
検定統計量:
$$
Z = \frac{\overline{X} - \mu_0}{\sigma / \sqrt{n}} \sim N(0, 1)
$$$$
\begin{cases}
Z \leq -1.96 & \text{棄却域} \
Z \geq 1.96 & \text{棄却域}
\end{cases}
$$
このとき、$Z \leq -1.96$ならば $H_0$ を棄却
- 検定の誤りの種類
(H_0) を棄却しない | (H_0) を棄却 | |
---|---|---|
帰無仮説が正しい | ◯ | 第1種の誤り(偽陽性) |
対立仮説が正しい | 第2種の誤り | ◯ |
- 有意水準 $\alpha$ の仮説検定**: 有意水準 $\alpha$ の仮説検定とは(帰無仮説が正しい)第1種の誤りが $\alpha$ 以下の仮説検定のことで、以下のように表せる。
$$
\max \left{ P_0 \in H_0 \left[ \text{棄却域} \right] \right} \leq \alpha \
= H_0のもとで(帰無仮説が正しい)第1種の誤りが \leq \alpha 以下}
$$
-
検出力: 対立仮説が正しいとき、正しく帰無仮説を棄却する確率
- $H_1$ が正しい。特に$\mu$の時、 検出力 = $P_\mu[ \text{棄却域} ]$
- $H_0$ が正しい。第1種の誤り = $P_\mu[ \text{棄却域} ]$
まとめ
- 検定問題:$H_0: \theta \in H_0$ vs. $H_1: \theta \in H_1$
$$
P_\theta[\text{棄却域}](\thetaが正しい時に検定統計量が棄却域に入る確率) \
= \begin{cases}
第1種の誤り: \theta \in H_0 \
検出力(1-第1種の誤り): \theta \in H_1
\end{cases}
$$
このとき、$Z \leq -1.96$ならば $H_0$ を棄却
- 検出力:正しく帰無仮説を棄却する確率
- 検出力曲線:上記検出力をグラフにしたもの(良い検定かどうかに関わる。)
-
良い検定とは?:検出力が、どの有意水準$\alpha$の検定よりも高い。
有意水準$\alpha$の検定のうち、どんな対立仮説のパラメータの値に対しても、検出力が最も高い検定。それすなわち一様最強力検定。(必ず存在するわけではない)
- Neyman-Pearsonの補題:詳細は割愛するが、この補題から母平均の片側検定は一様最強力検定だということもわかるし、両側検定については一様最強力検定は存在しないことがわかる。
ええー、じゃあどうやって検定するの?!という時に役立つ検定として尤度比検定がある。
- 尤度比検定:ある母集団に対して帰無仮説の最大尤度を対立仮説の最大尤度で割った尤度比、を検定統計量として検定を行う方法。
- 尤度比検定の手順
-
帰無仮説 (H_0) と対立仮説 (H_1) の設定
- 帰無仮説 (H_0)
- 対立仮説 (H_1)
-
尤度関数の計算
- 帰無仮説 (H_0) の下での尤度関数を (L_0)、対立仮説 (H_1) の下での尤度関数を (L_1) とする。
$$
L_0 = \max_{\theta \in \Theta_0} L(\theta)
$$$$
L_1 = \max_{\theta \in \Theta_1} L(\theta)
$$
-
尤度比統計量の計算
- 尤度比統計量 (\lambda) を次のように計算する。
$$
\lambda = \frac{L_0}{L_1}
$$
- 検定統計量の分布を考えて尤度比統計量が選択した有意水準(\alpha) に対してどうなるか検定する。
-
例:正規分布の平均値の両側検定
-
問題:帰無仮説 (H_0: \mu = \mu_0) vs. 対立仮説 (H_1: \mu \neq \mu_0)
- 尤度関数の設定
-
観測値が (X_1, X_2, ..., X_n) の独立同分布標本であり、正規分布 (N(\mu, \sigma^2)) に従う。(分散(\sigma^2) は既知とする)
$$
L(\mu) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(X_i - \mu)^2}{2\sigma^2} \right)
$$
- 最大尤度推定量
-
帰無仮説 (H_0) の下での最大尤度推定量は (\mu = \mu_0)、対立仮説 (H_1) の下での最大尤度推定量は標本平均 (\overline{X}) 。(最尤推定の計算するともとまるよ!)
$$
L_0 = L(\mu_0)
$$$$
L_1 = L(\overline{X})
$$
- 尤度比統計量
-
尤度比統計量 (\lambda) は次のように計算される。
$$
\lambda = \frac{L(\mu_0)}{L(\overline{X})}
$$
- あとは標準化とかごちゃごちゃやる
- 3分クッキングで計算して、以下の検定統計量を定めた有意水準で考える。
検定統計量:
$$
Z = \frac{\overline{X}}{\sigma / \sqrt{n}} \sim N(0, 1)
$$
- ノンパラメトリック検定: 母集団に確率分布を明示せず、帰無分布が導出できる検定統計量を考える検定
-
ウィルコクソンの符号付き順位和検定
- 仮定:分布は仮定しないが、母集団の確率関数が中央値を中心に左右対称という仮定を置く
-
手順
- 標本 $X_1, X_2, ..., X_n$ を絶対値で小さい順に並べる。
- 順位 $R_1, R_2, ..., R_n$ を付ける。
例:$X_1 = -3, X_2 = -1, X_3 = 4$
$$
R_1 = 2, \ R_2 = 1, \ R_3 = 3
$$- 元の符号がプラスのものを足す。
$$
W = \sum_{i=1}^{n} R_i \quad \left(= \sum_{i=1}^{n} 1_{[X_i \geq 0]} R_i \right)
$$
- ウィルコクソンの統計量
$$
W = \sum_{i=1}^{n} R_i
$$
-
例:中央値が0のときの $W$ の期待値と分散は何か? →中央値が0なら左右対称で$x_i$がプラスになる確率は試行回数1、確率1/2の二項分布に従うので
$$
W = 1 \times \epsilon_1 + 2 \times \epsilon_2 + \cdots + n \times \epsilon_n
$$ -
期待値:
$$
E[W] = 1 \times E[\epsilon_1] + 2 \times E[\epsilon_2] + \cdots + n \times E[\epsilon_n] = \frac{1}{2} \times (1 + 2 + \cdots + n) = \frac{1}{2} \times \frac{n(n+1)}{2} = \frac{1}{4} n (n+1)
$$
- 分散:
$$
V[W] = V[1 \times \epsilon_1 + 2 \times \epsilon_2 + \cdots + n \times \epsilon_n] = 1^2 V[\epsilon_1] + 2^2 V[\epsilon_2] + \cdots + n^2 V[\epsilon_n] = \frac{1}{4} n(n+1)(2n+1)/6
$$
に近似できる。
参考文献
日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック
データ解析のための数理統計入門 (著者:久保川 達也)
現代数理統計学 (著者:竹村 彰通)
数研講座シリーズ 大学教養 微分積分(著者:加藤 文元)
統計学のための数学入門30講 (科学のことばとしての数学)(著者:永田 靖)