はじめに
千葉大学・株式会社Nospareの川久保です.前回に続いて標本調査論の入門的な解説を行います.前回の記事では代表的な2つの推定量(線形推定量と比推定量)を紹介しましたが,今回以降では具体的な標本抽出法を紹介し,それぞれの標本抽出法における2つの推定量を説明します.具体的には,今回の記事で単純無作為抽出法,確率比例抽出法を扱い,次回以降では層化抽出法などのその他の重要な標本抽出法の説明を行います.
単純無作為抽出法
母集団の各要素が等確率で標本に選ばれるような抽出法を,単純無作為抽出法と呼びます.単純無作為抽出法には,非復元抽出と復元抽出があります.
非復元単純無作為抽出法における線形推定量
非復元抽出法における母集団総計$\tau_y$の推定問題では,母集団の各要素が標本に選ばれる確率(包含確率$\pi_i$)の逆数を抽出ウェイト$w_i = 1 / \pi_i$とした線形推定量(Horvitz-Thompson推定量)を考えました.ここでサンプルサイズ$n$,母集団サイズ$N$の非復元単純無作為抽出法(SRSWOR, simple random sampling without replacement)における$\pi_i$は,$N$個の中から$n$個の標本を選ぶ組み合わせの場合の数のうち,要素$i$が選ばられる場合の数を数えるには要素$i$以外の$n-1$個を$N-1$個の中から選ぶ組み合わせなので,
\pi_i = \frac{{}_{N-1} C_{n-1}}{{}_N C_n} = \frac{(N-1)!}{(n-1)!(N-n)!} \frac{n!(N-n)!}{N!} = \frac{n}{N},
となります.よって,抽出ウェイトは$w_i = 1/\pi_i = N/n$なので,線形推定量は以下で与えられます.
\begin{align}
\hat{\tau}_y &= \sum_{i \in s}w_iy_i \\
&= \frac{N}{n} \sum_{i \in s}y_i \\
&= N\bar{y}.
\end{align}
ただし,$\bar{y} = n^{-1}\sum_{i \in s}y_i$は標本平均です.
復元単純無作為抽出法における線形推定量
復元抽出法においては,包含確率$\pi_i$のかわりに,抽出確率(サイズ1の標本抽出を$n$回繰り返すと考え,それぞれのサイズ1の標本抽出において要素$i$が抽出される確率)を用いた線形推定量(Hansen-Hurwitz推定量)を考えました.復元単純無作為抽出法(SRSWR, simple random sampling with replacement)においては$p_i = 1/N$なので,$w_i = 1/(np_i) = N/n$となり,SRSWORの抽出ウェイトと同じになります.よってこの場合も,母集団総計の線形推定量は,$\hat{\tau}_y = N\bar{y}$となります.
単純無作為抽出法における比推定量
興味のある変数$y$と相関の高い補助変数$x$が利用可能であり,かつ$x$の母集団総計$\tau_x$の値が既知である場合には,標本と母集団のズレの情報を$x$から推定し,$\tau_y$の推定精度を改善するという比推定の手法が有効です.比推定量$\hat{\tau}_{y,R}$は一般に以下のかたちで与えられます.
\tag{1}
\hat{\tau}_{y,R} = \tau_x \frac{\hat{\tau}_y}{\hat{\tau}_x} = \tau_x \frac{\sum_{i \in s}w_iy_i}{\sum_{i \in s}w_ix_i}.
ただし$\hat{\tau}_y$と$\hat{\tau}_x$はそれぞれ,$\tau_y$と$\tau_x$における線形推定量です.単純無作為抽出法においては,これらはそれぞれ$\hat{\tau}_y = N\bar{y}, \hat{\tau}_x = N\bar{x}$なので,比推定量は,
\hat{\tau}_{y,R} = \tau_x \frac{\bar{y}}{\bar{x}}
となります.
確率比例抽出法
補助変数$x$を推定の段階で用いる手法が比推定でしたが,標本抽出の段階で用いる手法が確率比例抽出法です.母集団総計$\tau_y$の推定問題においては,$y$の値が大きい標本の推定に与える影響は大きいです.そこで,これらの要素が標本として抽出される確率が高くなるようなデザインを考えると,単純無作為抽出法よりも推定精度が向上することが期待されます.確率比例抽出法とは,抽出確率$p_i$,もしくは包含確率$\pi_i$が,補助変数$x_i$に比例するような標本抽出デザインのことです.
復元確率比例抽出法
復元抽出法における抽出確率$p_i$を補助変数$x_i$に比例させるためには,$\sum_{i\in U}p_i = 1, \tau_x = \sum_{i\in U}x_i$であるため,以下のように設定します.
p_i = \frac{x_i}{\tau_x}.
よって,抽出ウェイトは$w_i = 1/(np_i) = \tau_x / (nx_i)$なので,$\tau_y$の線形推定量は以下で与えられます.
\tag{2}
\hat{\tau}_y = \sum_{i \in s}w_iy_i = \frac{\tau_x}{n} \sum_{i \in s}\frac{y_i}{x_i}
非復元確率比例抽出法
非復元抽出の方法は,抽出確率$p_i$のサイズ1の標本抽出を$n$回繰り返すと考えられる復元抽出ほど単純ではなく,様々な方法が提案されています.その中には,サンプルサイズ$n$の値もランダムなデザインも含まれていますが,ここではサンプルサイズ$n$が固定されたデザイン(固定サイズデザイン)に限定して考察します.
固定サイズデザインでは$\sum_{i\in U}\pi_i = n$が成り立ちますが,それは以下のように示されます.$I_i$を要素$i$が標本に含まれれば$1$,そうでなければ$0$をとる二値確率変数であるとすると,$E[I_i] = \pi_i$および$n = \sum_{i\in U}I_i$に気をつけると,
\begin{align}
n &= E[n] \\
&= E\left[ \sum_{i \in U}I_i \right] \\
&= \sum_{i\in U}\pi_i
\end{align}
が成り立ちます.よって,包含確率$\pi_i$を補助変数$x_i$に比例させるには,
\pi_i = \frac{nx_i}{\tau_x}
と指定すればよいことが分かります.このとき抽出ウェイトは$w_i = 1/\pi_i = \tau_x/(nx_i)$となり,復元確率比例抽出法のときの$w_i$に等しくなり,線形推定量も(2)式と同じ形となります.
確率比例抽出法における比推定量
比推定量の一般的な形は(1)式で与えられますが,固定サイズデザインの確率比例抽出法においては$w_i = \tau_x/(nx_i)$であることに気をつけると,
\hat{\tau}_x = \sum_{i \in s}w_ix_i = \tau_x
となります.$x_i$の情報を用いて抽出ウェイト$w_i$を設定していることから,$\tau_x$を正確に推定できるわけです.よって,確率比例抽出法における比推定量は,
\hat{\tau}_{y,R} = \tau_x \frac{\hat{\tau}_y}{\hat{\tau}_x} = \hat{\tau}_y = \sum_{i \in s}w_iy_i = \frac{\tau_x}{n} \sum_{i \in s} \frac{y_i}{x_i}
となり,(2)式で与えられる線形推定量と一致します.
おわりに
株式会社Nospareには,統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.