はじめに
千葉大学・株式会社Nospareの川久保です.これまで3回にわたって執筆してきた標本調査論の入門的な解説の続きを行います.まず,簡単にこれまでの記事の概要を復習しておきます.「標本調査論入門1」では代表的な2つの推定量(線形推定量と比推定量)を紹介しました.「標本調査論入門2」では具体的な標本抽出法として単純無作為抽出法と確率比例抽出法を扱い,それぞれの標本抽出法における2つの推定量を説明しました.「標本調査論入門3」では,層化抽出法とその関連手法の説明を行いました.
今回は,その他の標本抽出法として,クラスター抽出法,多段抽出法,二相抽出法の解説を行います.
クラスター抽出法
要素を抽出単位とするのでなく,要素のまとまり(クラスター)を抽出する方法を,クラスター抽出法(cluster sampling)と言います.生徒を抽出単位とするかわりに,学校を無作為抽出するなどの例が考えられます.標本抽出のコストを抑えることができる反面,クラスター内に似た要素が多い傾向にある場合は,推定量の分散が大きくなる(推定の効率が下がる)というデメリットが想定されます.
記法の準備
母集団$U$を$M$個のクラスター$U_1,\dots,U_M$に分割します.すなわち,$U = \bigcup_{a=1}^M U_a$が成り立ちます.ここで,$N_a$を第$a$クラスターの要素数,すなわちクラスターサイズとすると,全体の母集団サイズ$N$については,$N = \sum_{a=1}^M N_a$が成り立ちます.また,第$a$クラスターの$y$の総計$\tau_{y,a}$と,平均$\mu_{y,a}$は,以下になります.
\tau_{y,a} = \sum_{i \in U_a} y_i, \quad \mu_{y,a} = \frac{1}{N_a} \tau_{y,a}
そして,$M$個のクラスターの中から,$m$個のクラスターを抽出し,抽出されたクラスターの集合を$s_\mathrm{I} \subseteq \{ 1,\dots,M \}$とします.ここで,$s_\mathrm{I}$の添え字$\mathrm{I}$(ローマ数字の1)は,第一次抽出単位を意味します.クラスター抽出では,抽出されたクラスター内の全要素を観測(抽出)するので,第二次以降の抽出単位は概念上存在しませんが,次に扱う多段抽出法と記法を揃えるために導入します.さらに抽出されたクラスターに属する全要素が標本であり,これを$s = \bigcup_{a \in s_\mathrm{I}} U_a$とします.
クラスターの抽出法は,これまでに見てきた単純無作為抽出や確率比例抽出など様々な方法が考えられますが,それぞれの方法における推定量は以下で詳しく見ていきます.
単純無作為クラスター抽出法
クラスター抽出法では,抽出されたクラスター内のすべての要素について$y$を観測(抽出)するため,単純無作為抽出における要素$y_i$を,クラスター総計$\tau_{y,a}$に置き換えて考えればいいです.単純無作為抽出なので,抽出ウェイトはクラスター間で共通で,$w_a = M/m$です.よって母集団総計$\tau_y$の線形推定量は,
\hat{\tau}_y = \sum_{a \in s_\mathrm{I}} w_a \tau_{y,a} = \frac{M}{m} \sum_{a \in s_\mathrm{I}} \tau_{y,a} = \frac{M}{m} \sum_{i \in s} y_i
となります.
次に,補助変数を$x_i = 1$とした比推定量,すなわちサイズを用いた比推定量を考えます.変数$x$のクラスター総計$\tau_{x,a} = N_a$はクラスターサイズ,母集団総計$\tau_x = N$は母集団サイズで,$\tau_x$の線形推定量は,
\hat{\tau}_x = \hat{N} = \frac{M}{m} \sum_{a \in s_\mathrm{I}} N_a = \frac{M}{m}n,
と表されます.よって,$\tau_y$のサイズを用いた比推定量$\hat{\tau}_{y,N}$は,
\hat{\tau}_{y,N} = N\frac{\hat{\tau}_y}{\hat{N}} = N \frac{\sum_{i \in s}y_i}{n} = N \bar{y}
となります.このことから,母集団平均$\mu_y = \tau_y / N$のサイズを用いた比推定量は,標本平均$\bar{y}$であることも分かります.
確率比例クラスター抽出法
補助変数$x$を用いてクラスターを確率比例抽出するには,抽出確率(または包含確率)を$x$のクラスター総計$\tau_{x,a}$に比例させれば良いです.よって,$m$個のクラスターを確率比例抽出するとき,第$a$クラスターの抽出ウェイトは$w_a = \tau_x / (m\tau_{x,a})$となります.特に$x_i = 1$の場合,すなわちクラスターサイズの情報を用いて確率比例抽出を行う場合,$w_a = N / (mN_a)$となります.
このとき,母集団総計$\tau_y$の線形推定量は,
\hat{\tau}_y = \sum_{a \in s_\mathrm{I}} w_a \tau_{y,a} = \frac{N}{m} \sum_{a \in s_\mathrm{I}} \frac{\tau_{y,a}}{N_a} = \frac{N}{m} \sum_{a \in s_\mathrm{I}} \mu_{y,a}
という形となり,これはクラスター平均$\mu_{y,a}$の平均$m^{-1} \sum_{a \in s_\mathrm{I}} \mu_{y,a}$を$N$倍したものです.なお,$x_i = 1$を用いて確率比例抽出しているため,$\tau_y$のサイズを用いた比推定量は,線形推定量と一致します.
多段抽出法
クラスター抽出法は,抽出されたクラスター内のすべての要素を標本としました.一方で,選ばれたクラスターごとに,さらにその一部の要素を抽出する方法を,二段抽出法(two-stage sampling)と呼びます.クラスターとして学校をまず抽出し,さらに選ばれた学校の中から一部の生徒のみを標本とするといった例が考えられます.ここで,例における学校のように,一段目の抽出単位を第一次抽出単位(primary sampling unit: PSU),生徒のような二段目の抽出単位を第二次抽出単位(secondary sampling unit: SSU)と呼びます.
SSUがクラスターである場合も考えられ,さらにSSUの中から一部の要素を抽出すれば三段抽出法となります.一般に,選ばれたクラスター内でさらに抽出を繰り返す方法を多段抽出法(multi-stage sampling)と呼びます.
記法の準備
簡単のために,二段抽出の方法を説明します.一段目の抽出はクラスター抽出と同様で,まず母集団$U$を$M$個のクラスター$U_1,\dots,U_M$に分割します.すなわち,$U = \bigcup_{a=1}^M U_a$が成り立ちます.そして,$M$個のクラスターの中から$m$個を抽出し,抽出されたPSUの集合を$s_\mathrm{I} \subseteq \{ 1,\dots,M \}$とします.
二段目の抽出は,選ばれたPSUごとに独立に行います.第$a$PSUの$N_a$個のSSUの中から$n_a$個を抽出し,その集合を$s_a$とします.よって標本$s$は,$s = \bigcup_{a\in s_\mathrm{I}} s_a$であり,またトータルのサンプルサイズ$n$は,$n = \sum_{a \in s_\mathrm{I}} n_a$です.
それぞれのstageにおいて様々な抽出法が考えられ,その組み合わせは非常に多くなります.そこで,ここでは代表して2つのケースを見ていきます.
「単純無作為抽出 - 単純無作為抽出」の場合
一段目で$M$個のPSUから$m$個を単純無作為抽出し,二段目で第$a$PSUの$N_a$個のSSUの中から$n_a$個を単純無作為抽出するケースを考えます.多段抽出法では,各stageで抽出が独立に繰り返されるため,抽出確率(または包含確率)は,各stageの抽出確率(または包含確率)の積になります.よって,抽出ウェイトも各stageの抽出ウェイトの積になり,
w_i = \frac{M}{m} \frac{N_a}{n_a}, \quad (i \in s_a)
が成り立ちます.この抽出ウェイトを用いて,母集団総計$\tau_y$の線形推定量を,$\hat{\tau}_y = \sum_{i \in s} w_iy_i$と求めることができます.
一方で,母集団サイズ$N$の推定量$\hat{N}$は,
\hat{N} = \sum_{i \in s} w_i = \sum_{a \in s_\mathrm{I}} n_a \frac{M}{m} \frac{N_a}{n_a} = \frac{M}{m} \sum_{a \in s_\mathrm{I}}N_a
となり,一般に$N$に一致しません.サイズを用いた比推定量$N \hat{\tau}_y / \hat{N}$は,線形推定量よりも精度が良いことが期待されます.
「確率比例抽出 - 単純無作為抽出」の場合
一段目で補助変数$x_i = 1$を用いた確率比例抽出を行う場合,確率比例クラスター抽出法と同様,一段目の第$a$クラスターの抽出ウェイトは
\frac{\tau_x}{m \tau_{x,a}} = \frac{N}{mN_a}
となります.二段目で,どのPSUにおいても$n_a = n/m$個のSSUを単純無作為抽出する場合,抽出ウェイトは,
w_i = \frac{N}{mN_a} \frac{N_a}{n_a} = \frac{N}{n}
となり,どの要素も同じウェイトになります.このとき,母集団総計$\tau_y$の線形推定量は,
\hat{\tau}_y = \sum_{i \in s} w_iy_i = \frac{N}{n} \sum_{i \in s}y_i,
母集団平均$\mu_y = \tau_y / N$の線形推定量は,
\hat{\mu}_y = \frac{1}{n} \sum_{i \in s} y_i = \bar{y},
つまり標本平均となります.母集団平均の線形推定量が標本平均と一致するような標本を自己加重標本と呼び,この抽出法は好んで用いられます.
二相抽出法
最後に,二相抽出法(double sampling)と呼ばれる方法について,簡単に言及しておきます.
標本抽出法としての確率比例抽出法や層化抽出法,および推定方法としての比推定量は,母集団のすべての要素の補助変数値$x_i$,もしくはその母集団総計$\tau_x$が既知である必要があります.しかしながら,有効な$x_i$の値が未知である場合も多くあります.
そこで,まず比較的大きいサイズの標本調査(第一相抽出)によって,補助変数$x_i$の値だけを抽出します.次に,第一相抽出標本の中から,目的とする$y_i$の値を調べます(第二相抽出).ここで,第一相抽出で得た$x_i$の値を,第二相抽出で確率比例抽出や層化抽出を行ったり,比推定量を求めたりして利用します.
おわりに
株式会社Nospareには,統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.