全数調査と標本調査
全数調査:調査対象全体(=母集団)を調査する方法。調査の精度が高いが、多大な労力がかかる。
標本調査:調査対象全体から一部を取り出した部分集合(=標本)を調査する方法。調査の精度は下がるが、労力が下がる。
何かの統計調査を行う際、全数調査の労力が大きい場合に、標本調査が威力を発揮する。
標本調査では、標本が母集団のなるべく正しい縮図(=忠実に再現された模型)になっていなければならない。
すなわち、標本に属する要素が特別なものに偏らないように選ぶ必要がある。
標本に属する要素が特別なものに偏らないように選ぶ方法として「無作為抽出」がある。
無作為抽出:母集団の各要素を等しい確率で抽出し、それを標本とする抽出方法。
復元抽出と非復元抽出
復元抽出:毎回元に戻しながら次のものを一個ずつ取り出す、非破壊的な抽出方法。
非復元抽出:取り出したものを元に戻さずそのまま続けて取り出す、破壊的な抽出方法。
大きさ$N$の母集団を考える。
ある変量$x$が全部で$m$種類の異なる値$x_1, x_2, \dots, x_m$を取り、
各値を持つ要素数をそれぞれ、$f_1, f_2, \dots, f_m$とする。
すなわち、$f_1 + f_2 + \dots + f_m = N$が成り立つ。
この母集団からの無作為な選択、及び無作為抽出を考えるとき、その確率分布は以下のようになるはずである。
@@@表を挿入@@@
変量$x$に対応する確率変数を$X$とすると、$X$の確率分布、平均、分散をそれぞれ母集団分布、母平均、母分散と呼ぶ。
ここで、この母集団から大きさ$n$の標本を無作為抽出することを考える。
我々の目標は、母集団の特徴をできるだけ忠実に反映した縮小模型を作ることである。
非復元抽出によって標本を作ることを考える。
非復元抽出は要素を取り出す度に少しずつ母集団を変形させるので、
毎回少しずつ異なる母集団から無作為抽出する事になる。
すなわち、母集団から$n$回非復元的に取り出すことを考えると、その度に変形しゆく$n$種類の母集団$S,S’,\dots$から無作為抽出することになる。
対して復元抽出の場合は、毎回全く同じ母集団$S$から大きさ1の標本を無作為に抽出するという試行を$n$回繰り返すことになる。
より母集団に近い標本を得る、という目的に適った方法は、復元抽出と思われる。
したがって、復元抽出によって大きさ$n$の標本を抽出したとき、
標本の各要素の変量$x$について、その確率変数を$X_1,X_2,\dots,X_n$とすると、
「$X_1,X_2,\dots,X_n$は、それぞれが母集団分布に従う互いに独立な確率変数である」と言える。
ただし、作りたい標本の大きさ$n$に対して母集団の大きさ$N$が十分大きい場合、
非復元的に取り出したとしても、母集団の変形の度合いが小さいため、近似的に同じ1つの母集団$S$から無作為抽出していると見なすことができ、
復元抽出との差が小さくなる。よって非復元抽出でも精度の良い標本を作ることができる。