はじめに
千葉大学・株式会社Nospareの川久保です.何回かに分けて,標本調査論の入門的な解説をしたいと思います.今回は,標本調査論を議論する上での準備と,代表的な2つの推定量について紹介します.次回以降で,具体的な標本抽出法(単純無作為抽出法,確率比例抽出法,層化抽出法など)について説明します.標本調査論は重要な分野であるにもかかわらず,体系的に学習する機会が少ない分野であるように思われます.以前,書籍紹介の記事でも紹介させていただきましたが,土屋隆裕『概説 標本調査法』に網羅的にまとめられており,本稿の執筆においても記法や用語などを参照させていただきました.
いくつかの準備
母集団
例として,世帯所得を調査する問題を考えます.$y_i \ (i=1,\dots,N)$を調査対象(全国の全世帯など)における$i$番目の世帯の所得であるとします.このとき,調査対象全てから成る集団(添字集合)$U = \{ 1,\dots,N \}$を母集団といい,母集団に含まれる要素の数$N$を母集団サイズといいます.確率分布からの実現値として標本をとらえる統計モデルとは異なり,ここでは母集団サイズ$N$は有限,つまり有限母集団を考えます.
$y_1,\dots,y_N$の母集団特性値(有限母集団パラメータ)のうち,本稿では以下の母集団総計$\tau_y$の推定を考えます.
$$
\tau_y = \sum_{i \in U}y_i
$$
包含確率
母集団特性値を調べるために行う標本抽出では,各標本が選ばれる確率を標本設計者が決定し,その確率にもとづいて標本を選ぶ方法(確率抽出法)が望ましいです.ここで,母集団における各要素が,標本調査によって標本として含まれる確率のことを包含確率と呼び,要素$i$の包含確率を$\pi_i$で表します.母集団特性値の推定量を考える上で,包含確率は重要な役割を果たします.
線形推定量
Horvitz-Thompson推定量
まず,非復元抽出法における母集団総計$\tau_y$の推定問題を考えます.非復元抽出法とは,一度選んだ要素を元の箱(母集団)に戻さない,すなわち同一の要素が重複して選ばれることはない抽出法です.
非復元抽出法における母集団総計$\tau_y$の推定量としては,以下のHorvitz-Thompson(HT)推定量がよく用いられます.
\hat{\tau}_y = \sum_{i \in s}\frac{y_i}{\pi_i}
ただし,$s$は標本に含まれる母集団の要素(添字集合)を表します.HT推定量は母集団総計の不偏推定量,すなわち
$$
E[\hat{\tau}_y] = \tau_y
$$
が成り立ちますが,それは以下のように示すことができます.標本調査論においては母集団は固定なので,期待値を考える上でのランダムネスは,標本が選ばれる確率に由来します.そこで,$I_i$を母集団における$i$番目の要素が標本$s$に含まれれば1,そうでなければ0をとる二値変数とすると,$E[I_i] = \pi_i$(包含確率)が成り立ちます.この$I_i$を使ってHT推定量を書き換えると,
\begin{align}
E[\hat{\tau}_y] &= E\left[ \sum_{i \in s} \frac{I_iy_i}{\pi_i} \right] \\
&= E\left[ \sum_{i \in U} \frac{I_iy_i}{\pi_i} \right] \\
&= \sum_{i \in U} \frac{E[I_i] y_i}{\pi_i} \\
&= \sum_{i \in U} y_i \\
&= \tau_y
\end{align}
が成り立ち,不偏性が示されます.
Hansen-Hurwitz推定量
次に,復元抽出法における母集団総計$\tau_y$の推定問題を考えます.復元抽出法は非復元抽出法と異なり,抽出した要素を元の箱(母集団)に戻した上で次の要素を選ぶ,すなわち同一の要素が重複して選ばれることを許す抽出法です.サンプルサイズ$n$の復元抽出法は,サイズ1の標本抽出を$n$回繰り返したものとみなすことができます.ここで,それぞれのサイズ1の標本抽出において,要素$i$が含まれる確率を抽出確率と呼び,$p_i$と表記することにします.
復元抽出法においては,包含確率$\pi_i$ではなく抽出確率$p_i$を用いた以下のHansen-Hurwitz(HH)推定量がよく用いられます.
\hat{\tau}_y = \frac{1}{n} \sum_{i \in s}\frac{y_i}{p_i}
HH推定量もHT推定量と同様に,母集団総計$\tau_y$の不偏推定量です.
抽出ウェイト
ここで,非復元抽出のとき$w_i = 1 / \pi_i$,復元抽出のとき$w_i = 1/(np_i)$と定義し,この$w_i$を抽出ウェイト(sampling weight, survey weight)と呼びます.抽出ウェイトを用いると,HT推定量とHH推定量はともに,
\hat{\tau}_y = \sum_{i\in s}w_iy_i
と表すことができ,線形推定量と呼ばれています.
抽出ウェイト$w_i$は,要素$i$が母集団のいくつの要素を代表しているかを表すと理解できます.このことから標本における抽出ウェイトの和は,母集団サイズ$N$の推定量と考えられますが,そのことは次のように理解することもできます.どの要素も値が1である変数$y_i$の母集団総計は,$\sum_{i \in U}y_i = N$(母集団サイズ)です.よって,その線形推定量$\sum_{i \in s}w_iy_i = \sum_{i \in s}w_i$は,母集団サイズ$N$の線形推定量です.
比推定量
母集団総計$\tau_y$の推定問題において,変数$y$と相関の高い補助変数$x$が利用可能である場合,その情報を用いることで$\tau_y$の推定精度を高めることを考えます.前提として,$y$の標本調査で標本として抽出された要素$i \in s$と同じ$i$に対して$x_i$の値が観測されており,かつ$x$の母集団総計$\tau_x = \sum_{i \in U}x_i$の値が既知であることを仮定します.
抽出ウェイト$w_i$を用いた$\tau_x$の線形推定量は,
\hat{\tau}_x = \sum_{i\in s}w_ix_i
です.しかし,$\tau_x$の値は既知であるので,この標本の母集団からの乖離度合を両者の比$\tau_x / \hat{\tau}_x$によって知ることができます.この比の大きさを用いて,線形推定量$\hat{\tau}_y$を以下のように補正したものが比推定量$\hat{\tau}_{y,R}$です.
\hat{\tau}_{y,R} = \frac{\tau_x}{\hat{\tau}_x}\hat{\tau}_y = \tau_x \frac{\hat{\tau}_y}{\hat{\tau}_x} = \tau_x \frac{\sum_{i \in s}w_iy_i}{\sum_{i\in s}w_ix_i}
サイズを用いた比推定量
比推定量の特殊形として,母集団サイズを用いた推定量を紹介します.すべての要素$i$について$x_i=1$である補助変数を考えます.つまり$x$の母集団総計は,$\tau_x = \sum_{i \in U}x_i = N$(母集団サイズ)です.このとき$\tau_y$の比推定量は,
\hat{\tau}_{y,R} = \tau_x \frac{\sum_{i\in s}w_iy_i}{\sum_{i\in s}w_i} = N \frac{\hat{\tau}_y}{\hat{N}}
と表されます.ここで$\hat{N}$は母集団サイズの推定量$\sum_{i \in s}w_i$です.サイズを用いた比推定量は,部分母集団(sub-population)の特性値の推定や,事後層化推定量において有用ですが,詳細は次回以降の記事で紹介したいと思います.
おわりに
株式会社Nospareには,統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.