統計学実践ワークブックの21章の内容をまとめ、数式の導出と例題の導出を行った。
標本抽出
母集団からその一部である標本を取り出すことを標本抽出という。
単純無作為抽出法
母集団のすべての抽出単位に対して、標本に選ばれる確率をあらかじめ定めてから標本抽出する方法を単純無作為抽出法という。特に、調査単位そのものが抽出単位で、抽出全体を通じて母集団の各抽出単位の選ばれる確率が等しい抽出方法を単純無作為抽出法という。同じ抽出単位を2回以上抽出しない方法を非復元抽出という。
非復元単純無作為抽出法の特性
大きさ$N$の母集団から大きさ$n$の標本を非復元単純無作為抽出することを考える。その変量の値を$x_i$ $(i=1,2,\cdots ,n)$とする。母平均(母集団の平均)を$\mu$、母分散を$\sigma^2$とする。推定量として標本平均
\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i
を与える。
標本平均の期待値は、
\begin{multline}
\begin{split}
E[\bar{x}]&=E[\frac{1}{n}\sum_{i=1}^n x_i]=\frac{1}{n}\sum_{i=1}^n E[x_i] \\
&= \frac{1}{n}\sum_{i=1}^n \mu = \frac{1}{n}\cdot n\mu \\
&= \mu
\end{split}
\end{multline}
標本平均の分散は、
\begin{multline}
\begin{split}
V[\bar{x}]&=V[\frac{1}{n}\sum_{i=1}^n x_i]=\frac{1}{n^2}V[\sum_{i=1}^n x_i] \\
&= \frac{1}{n^2}\{ E[(\sum_{i=1}^n x_i)^2]-(E[\sum_{i=1}^n x_i])^2 \} =\frac{1}{n^2}\{ (\sum_{i=1}^nE[x_i^2]+\sum_{i\ne j}^N E[x_i x_j])-(\sum_{i=1}^n E[x_i])^2+ \sum_{i\ne j}^N E[x_i ]E[x_j]\} \\
&= \frac{1}{n^2}\{(\sum_{i=1}^nE[x_i^2] - \sum_{i=1}^n E[x_i])^2) + (\sum_{i\ne j}^N E[x_i x_j]-\sum_{i\ne j}^N E[x_i]E[ x_j]) \} \\
&= \frac{1}{n^2}(\sum_{i=1}^nV[x_i]+\sum_{i\ne j}^N Cov[x_i, x_j]) = \frac{1}{n^2}(n\sigma^2+n(n-1) Cov[x_i, x_j]) \\
Cov[x_i,x_j]&=E[x_i x_j]-E[x_i]E[x_j]=\frac{1}{N(N-1)}\sum_{i\ne j}^N x_i x_j - \frac{1}{N}\sum_{i=1}^N x_i\frac{1}{N}\sum_{j=1}^N x_j \\
&= \frac{1}{N(N-1)}\{ (\sum_{i=1}^N x_i)^2 - \sum_{i=1}^N x_i^2 \}-\frac{1}{N^2}(\sum_{i=1}^N x_i)^2 \\
&= \frac{1}{N^2(N-1)}\{-N\sum_{i=1}^N x_i^2 + (\sum_{i=1}^N x_i)^2\} \\
&= \frac{1}{N-1}\{(\frac{1}{N}\sum_{i=1}^N x_i)^2-\frac{1}{N}\sum_{i=1}^N x_i^2\}=\frac{1}{N-1}(E[x_i]^2-E[x_i^2])\\
&= \frac{-V[x_i]}{N-1} \\
&= \frac{-\sigma^2}{N-1} \\
V[\bar{x}]&=\frac{1}{n^2}(n\sigma^2+n(n-1) \frac{-\sigma^2}{N-1}) \\
&= \frac{N-n}{N-1}\cdot\frac{1}{n}\sigma^2
\end{split}
\end{multline}
ここで、$\frac{N-n}{N-1}$は有限修正という。
無限母集団の場合
標本平均の期待値は変わらず
E[\bar{x}]=\mu
標本平均の分散は
\begin{multline}
\begin{split}
V[\bar{x}]&=\lim_{N \to\infty}\frac{N-n}{N-1}\cdot\frac{1}{n}\sigma^2 \\
&=\lim_{N \to\infty}\frac{1-\frac{n}{N}}{1-\frac{1}{N}}\cdot\frac{1}{n}\sigma^2 \\
&= \frac{1}{n}\sigma^2
\end{split}
\end{multline}
復元単純無作為抽出の場合
標本平均の期待値は変わらず
E[\bar{x}]=\mu
各変量$x_i$が独立になるため、共分散項が$0$になる。そのため、標本平均の分散は、
V[\bar{x}] = \frac{1}{n}\sigma^2
標本設計
標本平均の分散を一定値以下に抑えるような標本設計をすることがある。
非復元単純無作為抽出で標本平均の分散を$c$以下に抑えようとする場合、標本の大きさは
n\geq \frac{N\sigma^2}{\sigma^2 + (N-1)c}
例1
n\geq \frac{1600*120}{120+(1600-1)*0.5}=208.81\cdots
よって、209人以上抽出すればよい。
有意抽出法
調査を行う側の主観や意図が入る方法を有意抽出法という。
集落抽出法
母集団をあらかじめ集落とよばれるグループに分けておき、そのなかからいくつかの集落を抽出単位として取り出し、その集落に含まれるすべての調査単位を調査する方法を集落抽出法という。
二段抽出法
母集団をあらかじめ第1次抽出単位とよばれるグループに分けておき、そのなかからいくつかを抽出する。抽出された第1次抽出単位それぞれから、より小さな単位の第2次抽出単位である調査単位を抽出する方法を二段抽出法という。
抽出された第2次抽出単位からさらに第3次抽出単位、第4次抽出単位、・・・と抽出する方法を多段抽出法という。
層化抽出法
母集団をあらかじめ層と呼ばれるグループに分けておき、すべての層から決められた大きさの調査単にを抽出する方法を層化抽出法という。
層化非復元無作為抽出法の特性
大きさ$N$の母集団があらかじめ$L$個の層に分けられており、各層の大きさが$N_h$ $(h=1,2,\cdots,L)$とする。層$h$から他の層とは独立に大きさ$n_h$の標本を非復元無作為抽出することを考える。得られる変量の値を$x_{hi}$ $(i=1,2,\cdots ,n_h)$とする。母平均を$\mu$とする。
推定量としての標本平均は
\bar{x_{st}}=\sum_{h=1}^L \frac{N_h}{N}\cdot\frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi}
標本平均の期待値は
\begin{multline}
\begin{split}
E[\bar{x_{st}}]&=E[\sum_{h=1}^L \frac{N_h}{N}\cdot\frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi}]\\
&=\sum_{h=1}^L \frac{N_h}{N}\cdot\frac{1}{n_h}\sum_{i=1}^{n_h} E[x_{hi}]=\sum_{h=1}^L \frac{N_h}{N}\cdot\frac{1}{n_h}\cdot n_h\mu \\
&= \frac{\mu}{N}\sum_{h=1}^L N_h \\
&= \mu
\end{split}
\end{multline}
標本平均の分散は
\begin{multline}
\begin{split}
V[\bar{x_{st}}]&=V[\sum_{h=1}^L \frac{N_h}{N}\cdot\frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi}] \\
&=E[(\sum_{h=1}^L \frac{N_h}{N}\cdot\frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi})^2]-E[\sum_{h=1}^L \frac{N_h}{N}\cdot\frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi}]^2 \\
&= \sum_{h=1}^LE[(\frac{N_h}{N}\cdot\frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi})^2]-\sum_{h=1}^L E[ \frac{N_h}{N}\cdot\frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi}]^2 \\
&= \sum_{h=1}^L (\frac{N_h}{N})^2\{E[(\frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi})^2]-E[ \frac{1}{n_h}\sum_{i=1}^{n_h}x_{hi}]^2\} \\
&= \sum_{h=1}^L (\frac{N_h}{N})^2 V[\bar{x_h}] \\
&= \sum_{h=1}^L (\frac{N_h}{N})^2 \cdot\frac{N_h-n_h}{N_h-1}\cdot\frac{1}{n_h}\sigma_h^2
\end{split}
\end{multline}
ここで、$\sigma_h^2$は第$h$層の母分散で、$\frac{N_h-n_h}{N_h-1}$は有限修正項。
標本配分法
各層から抽出する標本の大きさの決め方を標本配分法という。
比例配分法
各層の標本の大きさ$n_h$が母集団の大きさ$N_h$に比例する標本配分法を比例配分法という。
層$h$から抽出する標本の大きさは
n_h=\frac{N_h}{N}\cdot n
で定義される。
標本平均の分散について考える。
\begin{multline}
\begin{split}
V[\bar{x_{st}}]&= \sum_{h=1}^L (\frac{N_h}{N})^2 \cdot\frac{N_h-n_h}{N_h-1}\cdot\frac{1}{n_h}\sigma_h^2\\
&= \sum_{h=1}^L\frac{N_h}{N}\cdot\frac{1}{n}\sigma_h^2\cdot\frac{N_h-n_h}{N_h-1}
\\
&\approx\sum_{h=1}^L\frac{N_h}{N}\cdot\frac{1}{n}\sigma_h^2\\
V[x]&=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2=\frac{1}{N}\sum_{h=1}^L\sum_{i=1}^{N_h}(x_{hi}-\mu)^2 \\
&= \frac{1}{N}\sum_{h=1}^L\sum_{i=1}^{N_h}\{ (x_{hi}-\bar{x_h})+(\bar{x_h}-\mu) \}^2=\frac{1}{N}\sum_{h=1}^L\sum_{i=1}^{N_h}\{(x_{hi}-\bar{x_h})^2 +(\bar{x_h}-\mu)^2 +2(x_{hi}-\bar{x_h})(\bar{x_h}-\mu)\} \\
&=\sum_{h=1}^L\frac{N_h}{N}\cdot\frac{1}{N_h}\sum_{i=1}^{N_h}(x_{hi}-\bar{x_h})^2+\frac{1}{N}\sum_{h=1}^L\sum_{i=1}^{N_h}(\bar{x_h}-\mu)^2+\frac{2}{N}\sum_{h=1}^L(\bar{x_h}-\mu)\sum_{i=1}^{N_h}(x_{hi}-\bar{x_h}) \\
&= \sum_{h=1}^L\frac{N_h}{N}\cdot\frac{1}{N_h}\sum_{i=1}^{N_h}(x_{hi}-\bar{x_h})^2+\frac{1}{N}\sum_{h=1}^L\sum_{i=1}^{N_h}(\bar{x_h}-\mu)^2+\cdot\frac{2}{N}\sum_{h=1}^L(\bar{x_h}-\mu)\cdot 0 \\
&= \sum_{h=1}^L\frac{N_h}{N}\sigma_h^2 + \frac{1}{N}\sum_{h=1}^L\sum_{i=1}^{N_h}(\bar{x_h}-\mu)^2 \\
V[\bar{x}]&=\frac{N-n}{N-1}\frac{1}{n}V[x]\\
&=\frac{N-n}{N-1}\frac{1}{n}\{\sum_{h=1}^L\frac{N_h}{N}\sigma_h^2 + \frac{1}{N}\sum_{h=1}^L\sum_{i=1}^{N_h}(\bar{x_h}-\mu)^2\}\\
&\geq \frac{N-n}{N-1}\frac{1}{n}\sum_{h=1}^L\frac{N_h}{N}\sigma_h^2 \\
&\approx \sum_{h=1}^L\frac{N_h}{N}\cdot\frac{1}{n}\sigma_h^2 \\
&= V[\bar{x_{st}}]
\end{split}
\end{multline}
有限修正を無視できる状況では$V[\bar{x}]\geq V[\bar{x_{st}}]$が成り立ち、推定量の精度は単純無作為抽出法より悪くなることは無い。
当配分法
各層の標本の大きさがすべて等しいとき、当配分法という。
各層での標本の大きさは、
n_h=\frac{n}{L}
で定義される。
標本分散について考える。
\begin{multline}
\begin{split}
V[\bar{x_{st}}]&=\sum_{h=1}^L(\frac{N_h}{N})^2\cdot\frac{N_h-n_h}{N_h-1}\cdot\frac{1}{n_k}\sigma_h^2 \\
&= \sum_{h=1}^L(\frac{\frac{N}{L}}{N})^2\cdot\frac{N_h-n_h}{N_h-1}\cdot\frac{1}{\frac{n}{L}}\sigma_h^2 = L\sum_{h=1}^L(\frac{1}{L})^2\cdot\frac{N_h-n_h}{N_h-1}\cdot\frac{1}{n}\sigma_h^2 \\
&= \frac{N_h-n_h}{N_h-1}\cdot\frac{1}{n}\sigma_h^2
\end{split}
\end{multline}
ネイマン配分法
推定量の分散を最小にするような標本配分法を**ネイマン配分法(Neyman allocation)**という。
標本の大きさをラグランジュの乗数法で導出する。
\begin{multline}
\begin{split}
V[\bar{x_{st}}]&=\sum_{h=1}^L(\frac{N_h}{N})^2\cdot\frac{N_h-n_h}{N_h-1}\cdot\frac{1}{n_h}\sigma_h^2 \\
&=\sum_{h=1}^L(\frac{N_h}{N})^2\cdot\frac{N_h}{N_h-1}\cdot\frac{1}{n_h}\sigma_h^2 - \sum_{h=1}^L(\frac{N_h}{N})^2\cdot\frac{1}{N_h-1}\cdot\sigma_h^2 \\
L(n_h, \lambda) &= V + \lambda (\sum_{h=1}^L n_h -n)\\
\frac{\partial L(n_h, \lambda)}{\partial n_h}&=-(\frac{N_h}{N})^2\cdot\frac{N_h}{N_h-1}\cdot\frac{1}{n_h^2}\sigma_h^2 + \lambda = 0 \\
n_h &= \sqrt{\frac{1}{\lambda}\cdot\frac{N_h}{N_h-1}}\cdot\frac{N_h}{N}\sigma_h \\
n &= \sum_{h=1}^Ln_h = \sqrt{\frac{1}{\lambda}}\sum_{h=1}^L\sqrt{\frac{N_h}{N_h-1}}\cdot\frac{N_h}{N}\sigma_h \\
\lambda &= (\frac{1}{n}\sum_{h=1}^L\sqrt{\frac{N_h}{N_h-1}}\cdot\frac{N_h}{N}\sigma_h)^2 \\
n_h &= \frac{\sqrt{\frac{N_h}{N_h-1}}\cdot\frac{N_h}{N}\sigma_h}{\frac{1}{n}\sum_{h=1}^L\sqrt{\frac{N_h}{N_h-1}}\cdot\frac{N_h}{N}\sigma_h} \\
&= \frac{\sqrt{\frac{N_h}{N_h-1}}\cdot N_h\sigma_h}{\sum_{h=1}^L\sqrt{\frac{N_h}{N_h-1}}\cdot N_h\sigma_h} \cdot n
\end{split}
\end{multline}
例2
\begin{multline}
\begin{split}
n_1 &= \frac{N_1\sigma_1\sqrt{\frac{N_1}{N_1-1}}}{N_1\sigma_1\sqrt{\frac{N_1}{N_1-1}} + N_2\sigma_2\sqrt{\frac{N_2}{N_2-1}}}\cdot n \\
&= \frac{500*6*\sqrt{\frac{500}{500-1}}}{500*6*\sqrt{\frac{500}{500-1}} + 500*18*\sqrt{\frac{500}{500-1}}}*20=5 \\
n_2&=n-n_1=20-5=15
\end{split}
\end{multline}
例題 問21.1
①は単純無作為抽出法。
②は集落抽出法。
③は層化抽出法。
④は有意抽出法。
⑤は二段抽出法。
よって、②が正解。
例題 問21.2
[1]
層化抽出法の平均は母平均と同じになる。母平均は、
\frac{\hat{Y}}{40}=\frac{20*15+10*150+5*510+5*1010}{40}=235
[2]
層化抽出法の分散は、
\begin{multline}
\begin{split}
\hat{\frac{V}{N^2}}=&\sum_{h=1}^L(\frac{N_h}{N})^2\cdot\frac{N_h-n_h}{N_h-1}\cdot\frac{1}{n_h}\sigma_h^2 \\
=& (\frac{N_1}{N})^2\cdot\frac{N_1-n_1}{N_1-1}\cdot\frac{1}{n_1}\sigma_1^2
+ (\frac{N_2}{N})^2\cdot\frac{N_2-n_2}{N_2-1}\cdot\frac{1}{n_2}\sigma_2^2 \\
&+ (\frac{N_3}{N})^2\cdot\frac{N_3-n_3}{N_3-1}\cdot\frac{1}{n_3}\sigma_3^2
+ (\frac{N_4}{N})^2\cdot\frac{N_4-n_4}{N_4-1}\cdot\frac{1}{n_4}\sigma_4^2
\end{split}
\end{multline}
Aの場合、
\begin{multline}
\begin{split}
\hat{V} &= (\frac{20}{40})^2\cdot\frac{20-2}{20-1}\cdot\frac{1}{2}20^2+(\frac{10}{40})^2\cdot\frac{10-2}{10-1}\cdot\frac{1}{2}70^2+(\frac{5}{40})^2\cdot\frac{5-2}{5-1}\cdot\frac{1}{2}290^2+(\frac{5}{40})^4\cdot\frac{5-2}{5-1}\cdot\frac{1}{2}80^2 \\
&= \frac{900}{19}+\frac{1225}{9}+\frac{63075}{128}+\frac{75}{2}=713.75...
\end{split}
\end{multline}
Bの場合、
\begin{multline}
\begin{split}
\hat{V} &= (\frac{20}{40})^2\cdot\frac{20-4}{20-1}\cdot\frac{1}{4}20^2+(\frac{10}{40})^2\cdot\frac{10-2}{10-1}\cdot\frac{1}{2}70^2+(\frac{5}{40})^2\cdot\frac{5-1}{5-1}\cdot\frac{1}{1}290^2+(\frac{5}{40})^4\cdot\frac{5-1}{5-1}\cdot\frac{1}{1}80^2 \\
&= \frac{400}{19}+\frac{1225}{9}+\frac{21025}{16}+100=1571.22...
\end{split}
\end{multline}
Cの場合、
\begin{multline}
\begin{split}
\hat{V} &= (\frac{20}{40})^2\cdot\frac{20-1}{20-1}\cdot\frac{1}{1}20^2+(\frac{10}{40})^2\cdot\frac{10-2}{10-1}\cdot\frac{1}{2}70^2+(\frac{5}{40})^2\cdot\frac{5-4}{5-1}\cdot\frac{1}{4}290^2+(\frac{5}{40})^4\cdot\frac{5-1}{5-1}\cdot\frac{1}{1}80^2 \\
&= 100+\frac{1225}{36}+\frac{21025}{256}+100=316.15...
\end{split}
\end{multline}
よって、Cが一番分散が小さくなる。
例題 問21.3
[1]
-
①について
$n=\frac{N}{2}$のとき、標本平均の分散は
\begin{multline} \begin{split} V[\bar{x}]&=\frac{N-n}{N-1}\cdot\frac{1}{n}\sigma^2 = \frac{N-\frac{N}{2}}{N-1}\cdot\frac{1}{\frac{N}{2}}\sigma^2 \\ &= \frac{1}{N-1}\sigma^2 \end{split} \end{multline}
となり、分散は母集団の大きさ$N$によって変わる。
-
②について
有限集団の標本平均の分散は
V[\bar{x}]=\frac{N-n}{N-1}\cdot\frac{1}{n}\sigma^2
無限母集団の標本平均の分散は
V[\bar{x}]=\frac{1}{n}\sigma^2
$n\geq 1$より、$\frac{N-n}{N-1}\leq 1$なので、有限集団の標本平均の分散は無限母集団の標本平均の分散より大きくならない。
-
③について
復元単純無作為抽出の標本平均の分散は
V[\bar{x}]=\frac{1}{n}\sigma^2
以上より、母集団の大きさによらない。
[2]
\begin{multline}
\begin{split}
V_1 &= \frac{N-n}{N-1}\cdot\frac{1}{n}\sigma^2 \\
&= \frac{9585-600}{9585-1}\cdot\frac{1}{600}420 = 0.65625
V_2 &= \frac{1}{n}\sigma^2 \\
&= \frac{1}{600}420 = 0.7
\end{split}
\end{multline}
参考
数式の導出の参考にした。
https://www.ier.hit-u.ac.jp/~kitamura/lecture/Hit/00Statsys2.pdf