いままで Hadoop による全数調査の話や分布の適合度を検定する話をしてきましたが、ここで原点に立ち返って標本抽出法について整理をしたいと思います。
標本調査とは
観測対象のデータ全体を調査する全数調査とは違って、対象母集団から一定の手続を経て選んだ対象を調査することを 標本調査 (sample survey) と言います。
全数調査と異なり、標本調査では選んだ標本が母集団の特徴を十分に反映した標本であるかどうかを慎重に検討し標本抽出しなければなりません。
標本抽出法の種類
標本抽出の方法には、大きく分けて無作為抽出法と有意抽出法があります。
無作為抽出法では母集団から標本の選ばれる確率が等しくなるように乱数表などを用いて確率的に標本を選びます。無作為抽出で選ばれた標本を確率標本あるいはランダム標本と言います。
一方、母集団から標本を抽出するにあたって、事前に与えられた情報などをもとに「典型的」あるいは「代表的」であるとして便宜的あるいは恣意的に抽出する方法を有意抽出法といいます。
無作為標本には客観性がありますが有意標本には客観性が乏しくなります。また、有意標本による調査結果はある観点からは価値があってもそれ以外の一般的な場面でそうであるとは限りません。そのため有意抽出法では母集団の状況を推計が難しく、無作為標本の方が一般的であると言えます。
主な標本抽出法をまとめます。
抽出法名称 | 区分 | 説明 |
---|---|---|
単純無作為抽出法 | 無作為抽出法 | 母集団から乱数表を用いて標本を抽出します。 |
系統抽出法(等間隔法) | 無作為抽出法 | 最初だけ乱数表で決めそれ以降を等間隔で抽出します。単純無作為抽出法よりは「標本誤差」が大きくなります。ただし乱数を適用するのが最初の一回だけなので計算量が少なくてすみます。 |
多段抽出法 | 無作為抽出法 | 一段階目で対象のグループ、二段階目でそのグループ内の個人という風に、段階を分けて無作為抽出をおこないます。三段階以上の場合もあります。 |
層化抽出法 | 有意抽出法 | 母集団をいくつかの部分母集団に分割し各部分母集団から標本を抽出します。 |
ネイマン配分法 | 有意抽出法 | 層化抽出法の一種ですが、層別の標準偏差に注目し比例配分します。層の標準偏差が著しく大きい場合は抽出率を 1 (全数抽出)とします。 |
層化多段抽出法 | 有意抽出法 | 層化抽出法と多段抽出法を組み合わせたもので、よく用いられている方法です。 |
母平均・母比率の推定
母集団から標本抽出をおこない、標本調査によって母集団の性質を調べることが多々有ります。
母平均 μ 、母分散 σ^2 の母集団から大きさ n の無作為標本を復元抽出するとき標本平均 m の期待値 e' と標準偏差 σ' は次の通りです。
e' = \mu \\
\sigma' = \frac {\sigma} {\sqrt{n}}
極限定理
母平均 μ 、母 σ^2 の母集団から大きさ n の無作為標本を復元抽出します。 n が十分大きいとき標本平均 m は次のとおり正規分布に近似します。
N(\mu, \frac {\sigma^2} {n})
母平均の推定
標本の大きさ n が十分大きいとき母平均 μ に対する 95% 信頼区間は次のようになります。
m - 1.96 \frac {\sigma} {\sqrt{n}} \le \mu \le m + 1.96 \frac {\sigma} {\sqrt{n}}
母比率の推定
母比率 p の信頼度 95% の信頼区間は次のようになります。
R - 1.96 \sqrt{ \frac {R(1-R)} {n} } \le p \le R + 1.96 \sqrt{ \frac {R(1-R)} {n} }