以下の記事ではサンプルサイズが偏ることにより、検出力が変動することをシミュレーションを通して示した。
証明
次は数式を用いて証明する。
帰無仮説が正しい時の統計検定量
まず、母分散が既知の母集団が2つあり、それらの平均の差を求めることを前提とする。
統計検定量は以下のようになる。
\begin{align*}
Z &= \frac{(\bar{X}_A - \bar{X}_B) - (\mu_A - \mu_B)}{\sqrt{\frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}}} \\
&=> この時、帰無仮説が正しい場合 \mu_A = \mu_Bなので\mu_A - \mu_B=0となる\\
&= \frac{\bar{X}_A - \bar{X}_B}{\sqrt{\frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}}}
\end{align*}
対立仮説が正しい時の統計検定量
今回は対立仮説(Aの母平均≠Bの母平均)が正しい場合の検定統計量は考えると以下のようになる。
帰無仮説の時とは異なり、少し統計検定量を工夫する
\begin{align*}
Z &= \frac{(\bar{X}_A - \bar{X}_B) - (\mu_A - \mu_B) + (\mu_A - \mu_B)}{\sqrt{\frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}}} \\
&=> ここで、\frac{(\bar{X}_A - \bar{X}_B) - (\mu_A - \mu_B)}{\sqrt{\frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}}} は平均0、分散1の正規分布なので残ったものを記述すると\\
&= \frac{(\mu_A - \mu_B)}{\sqrt{\frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}}}となる
\end{align*}
この統計検定量の性質について考える。
今回母集団AとBは共に正規分布である。
正規分布には再生性がある。
例えば、独立な2つの確率変数 A, B がそれぞれ正規分布$A \sim \mathcal{N}(\mu_a, \sigma_a^2), \quad B \sim \mathcal{N}(\mu_b, \sigma_b^2)$に従うとする。
このとき、2つの確率変数の差 A-B が従う分布は、$A - B \sim \mathcal{N}(\mu_a - \mu_b, \sigma_a^2 + \sigma_b^2)$となる。
つまり、独立した正規分布の足し引きは正規分布になる。
従って上記の検定統計量$\frac{(\mu_A - \mu_B)}{\sqrt{\frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}}}$は対立仮説が正しい状況を考えているので、非心(中心が0ではない)正規分布となっていることがわかる。
統計検定量の最大化が検出力の最大化につながる。
上記の対立仮説が正しい時の検定統計量を最大化することが、βを低くすることに繋がる。
なぜならば、βとは対立仮説が正しいのにもかかわらず、帰無仮説を採択してしまう確率である。上記の検定統計量の値が小さいほど、対立仮説版のα、つまりβを小さく設定できるので、βをそもそも犯す確率が小さくなる。
そして、βの最小化は検出力を最大化と同義である。
最適化する部分は分母のみ
次に、母平均と母分散は変化しないので定数と考えられる。
その場合、変動するのはサンプルNAとNBの比率である。
したがって、分母の値を最小化することが統計検定量の最大化に繋がり、それが検出力の最大化につながる。
最適化する関数は以下のようになる
\begin{align*}
& f(n_A, n_B) = \frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B} \\
\\
& その時の制約条件は以下である。\\
\\
& n_A + n_B = N \quad (\text{Nは定数}) \\
& n_A はサンプルサイズ \\
& n_B もサンプルサイズ
\end{align*}
上記の式を最小化する。
最小化したい関数を解く
$n_A + n_B = N$を利用し、$n_a$のみの式を作る。
g(n_A) = \frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{N - n_A} \\
$g(n_A)$が最小になるように微分して0とおく。
\frac{d}{dn_A}g(n_A) = -\frac{\sigma_A^2}{n_A^2} + \frac{\sigma_B^2}{(N - n_A)^2} = 0
式展開をする
\begin{align*}
& \frac{\sigma_A^2}{n_A^2} = \frac{\sigma_B^2}{(N - n_A)^2} \\
& \frac{\sigma_A}{n_A} = \frac{\sigma_B}{N - n_A} \\
& \sigma_A(N - n_A) = \sigma_B n_A \\
& \sigma_A N - \sigma_A n_A = \sigma_B n_A \\
& \sigma_A N = (\sigma_A + \sigma_B)n_A \\
& \frac{N \sigma_A}{\sigma_A + \sigma_B} = n_A
\end{align*}
この時、AとBの母分散$\sigma_A=1, \sigma_B=1$なので以下の式展開により、最適なサンプルサイズの配分が$1:1$であることがわかる。
n_A = \frac{N}{1 + 1} = \frac{N}{2}
以上。
余談
最終的な式を再度書き直すと以下になる。
\frac{n_A}{n_B} = \frac{\sigma_A}{\sigma_B}
これが意味するのは分散が大きい方に合わせて、サンプルサイズも大きくすると検出力が最大になることを意味する。
参考文献
2標本の母平均の差の検定:
再生性について:
自分用メモ:以下Example4.6の最後の数式はコストを考慮した最適なサンプルの配分を定式化したもの
結論は
・そのグループの内部の分散が大きいほどサンプルを割り当てたい。
・そのグループのコストが大きいほどサンプルを割り当てたくない(コストの定式化に初期費用を含める点も注意)。
・(そのグループが大きいほどサンプルを割り当てたい。今回は全く触れていない)