はじめに
千葉大学・株式会社Nospareの川久保です.前々回,前回に続いて標本調査論の入門的な解説を行います.「標本調査論入門1」では代表的な2つの推定量(線形推定量と比推定量)を紹介し,「標本調査論入門2」では具体的な標本抽出法として単純無作為抽出法と確率比例抽出法を扱い,それぞれの標本抽出法における2つの推定量を説明しました.そして今回の記事では層化抽出法と,その関連手法を説明します.
層化抽出法
層化抽出法(stratified sampling)は,いくつかの層というグループに母集団を分割し,それぞれの層ごとに標本抽出を行う方法です.層化のための補助変数を層化変数と呼び,性別,人種,地域(都道府県)などのカテゴリカル変数が用いられます.確率比例抽出法では連続変数$x$の情報を用いてデザインを決定したのに対して,層化抽出法ではカテゴリカル変数を利用してデザインを決定する方法と考えることができます.
層化抽出法は,様々な属性の集団から網羅的に標本抽出することができます.たとえば,層化変数に人種を用いることによって,単純無作為抽出ではマイノリティの標本を十分に得ることができないかもしれない場合に,すべての人種の標本を網羅的に得ることが期待されます.これは,人種で分割した部分母集団ごとの特性値に関心がある場合にも有用です.
層化抽出法は,政府が実施する多くの標本調査で採用されています.これは,中央政府が各都道府県に標本抽出を依頼するという事情もあり,この場合都道府県が層となり,各都道府県で独立に標本抽出が行われます.
記法の準備
母集団$U$を,互いに背反で網羅的な$H$個の層$U_1,\dots,U_H$に分割します.つまり,
U = \bigcup_{h=1}^H U_h
とします.第$h$層の層サイズを$N_h = \# (U_h)$とし,母集団サイズ$N$については$N = \sum_{h=1}^H N_h$が成り立ちます.
各層において独立に標本抽出を行い,第$h$層の標本(添字集合)を$s_h$とし,そのサンプルサイズを$n_h = \#(s_h)$とします.よって,$s = \bigcup_{h=1}^H s_h$および,$n = \sum_{h=1}^H n_h$が成り立ちます.
層化抽出法における線形推定量
線形推定量のための抽出ウェイト$w_i$は,各層における標本抽出法に依存して決定します.各層で独立に標本抽出を行うため,ある層では単純無作為抽出法を用い,別の層では確率比例抽出法を用いるなどといったことも可能です.母集団総計$\tau_y$は,各層における層総計$\tau_{y,h} \ (h=1,\dots,H)$の線形推定量
\hat{\tau}_{y,h} = \sum_{i \in s_h}w_iy_i
の和をとることで推定できます.結局,線形推定量は以下の形で表現できます.
\hat{\tau}_y = \sum_{h=1}^H \hat{\tau}_{y,h} = \sum_{h=1}^H \sum_{i \in s_h} w_iy_i = \sum_{i \in s} w_iy_i
層化抽出法における比推定量
比推定量とは,標本$y_i(i\in s)$に対応した補助変数$x_i$の値と,その母集団総計$\tau_x$が利用可能であるときに,標本と母集団の乖離度合を$\tau_x$と$\hat{\tau}_x = \sum_{i\in s} w_ix_i$の比$\tau_x/\hat{\tau}_x$で推定し,$\tau_y$の線形推定量$\hat{\tau}_y = \sum_{i\in s}w_iy_i$を$\hat{\tau}_{y,R} = (\tau_x/\hat{\tau}_x)\hat{\tau}_y$と修正したものでした.
層化抽出法における比推定量は,さらに各層における$x$の層総計$\tau_{x,h}(h=1,\dots,H)$が観測されている場合に利用可能ですが,結合比推定量(combined ratio estimator)と,個別比推定量(separate ratio estimator)が考えられます.結合比推定量は,母集団全体の総計の比を用いて以下のように推定します.
\tau_x \frac{\hat{\tau}_y}{\hat{\tau}_x} = \tau_x \frac{\sum_{h=1}^H \sum_{i\in s_h}w_iy_i}{\sum_{h=1}^H \sum_{i\in s_h}w_ix_i}.
一方で個別比推定量は,層ごとに比推定量を求めた後にそれらを合算し,以下のように推定します.
\tag{1}
\sum_{h=1}^H \tau_{x,h} \frac{\hat{\tau}_{y,h}}{\hat{\tau}_{x,h}} = \sum_{h=1}^H \tau_{x,h} \frac{\sum_{i \in s_h}w_iy_i}{\sum_{i \in s_h}w_ix_i}.
事後層化
データを得た後に標本を層化し,推定の精度を高める方法を事後層化(post-stratification)と言います.
事後層化推定量
母集団$U$を,互いに背反で網羅的な$D$個の事後層$U_1,\dots,U_D$に分割するものとします.層化抽出法における$U_h$と役割は同じですが,標本設計の段階で層化されている$U_h$と区別するために,異なる記法を用います.このとき母集団総計$\tau_y$は,事後層総計$\tau_{y,d}$の和,つまり,
\tau_y = \sum_{d=1}^D \sum_{i \in U_d} y_i = \sum_{d=1}^D \tau_{y,d}
と表されます.よって,事後層総計$\tau_{y,d}$の推定量を合計すれば,母集団総計$\tau_y$の事後層化推定量を得ることができます.
ここで,二値変数$\delta_{d,i}$を,
\delta_{d,i} =
\begin{cases}
1 & \mathrm{if} \ i \in U_d, \\
0 & \mathrm{otherwise}
\end{cases}
と定義し,補助変数$x$を用いた(個別)比推定量として,以下のように事後層化推定量を構成します.
\tag{2}
\hat{\tau}_{y,\mathrm{PS}} = \sum_{d=1}^D \tau_{x,d} \frac{\sum_{i \in s}w_i \delta_{d,i}y_i}{\sum_{i \in s}w_i \delta_{d,i}x_i} = \sum_{d=1}^D \tau_{x,d} \frac{\hat{\tau}_{y,d}}{\hat{\tau}_{x,d}}.
これは(1)式と形式的に同じです.特に補助変数$x_i = 1$とし,「標本調査論入門1」で紹介したサイズを用いた比推定量を考えると,以下のようなかたちの推定量になります.
\tag{3}
\hat{\tau}_{y,\mathrm{PS}} = \sum_{d=1}^D N_d \frac{\hat{\tau}_{y,d}}{\hat{N}_d}.
ただし,$N_d = \#(U_d)$,$\hat{N}_d = \sum_{i \in s}w_i \delta_{d,i}$は$N_d$の推定量です.
事後層化推定は,標本設計が単純無作為抽出,すなわち抽出ウェイトが$w_i = N/n$の場合であっても,「結果的に」ある層化変数について標本に偏りがある場合には,線形推定量
\sum_{i\in s}w_iy_i = \sum_{i\in s}\frac{N}{n}y_i = N \bar{y}
と異なった形になります.サイズを用いた事後層化推定量(3)式は,
\hat{\tau}_{y,\mathrm{PS}} = \sum_{d=1}^D N_d \frac{\sum_{i\in s}(N/n)\delta_{d,i} y_i}{\sum_{i\in s}(N/n)\delta_{d,i}} = \sum_{d=1}^D \frac{N_d}{n_d} \sum_{i\in s} \delta_{i,d}y_i = \sum_{d=1}^D N_d \bar{y}_d
と書けます.ただし$n_d$は事後層$U_d$のサンプルサイズ,$\bar{y}_d$は事後層$U_d$における$y$の標本平均です.単純無作為抽出なので,理論的には$N_d / n_d \approx N/n$が成り立つはずですが,そうでない場合(層化変数によって標本に偏りがある場合)は,事後層ごとに標本平均を計算し,事後層のサイズをかけて和をとるという形になります.この後,事後層化ウェイトという概念を説明しますが,ウェイトを事後層ごとに$N_d/n_d$と調整していると見ることもできます.
事後層化ウェイト
(2)式の事後層化推定量$\hat{\tau}_{y,\mathrm{PS}}$は,以下のように書き直すことができます.
\hat{\tau}_{y,\mathrm{PS}} = \sum_{i \in s} w_i \left( \sum_{d=1}^D \delta_{d,i} \frac{\tau_{x,d}}{\hat{\tau}_{x,d}} \right) y_i = \sum_{i \in s} \tilde{w}_i y_i.
ただし,
\tilde{w}_i = w_i \times \sum_{d=1}^D \delta_{d,i} \frac{\tau_{x,d}}{\hat{\tau}_{x,d}}
は,抽出ウェイト$w_i$を調整したもので,事後層化ウェイトと呼ばれます.特に,$x_i = 1$としたサイズを用いた比推定では,
\tilde{w}_i = w_i \times \sum_{d=1}^D \delta_{d,i} \frac{N_d}{\hat{N}_d}
となります.
レイキング
事後層化ウェイトの導出で見たように,事後層化推定量とは,各事後層において補助変数$x$に関する推定値(特にサイズの推定値$\hat{N}_d$)が,母集団の値(サイズを用いる場合は$N_d$)に合うようにウェイトを調整する方法と捉えることができます.この考え方を応用し,2つ以上の層化変数を用いて事後層化を行い,どの事後層においても母集団の値に合うようにウェイトを調整する方法のことを,レイキング(raking)と言います.
2つの層化変数で,サイズを用いた比推定による事後層化推定を行うケースを考えます.母集団$U$の,1つめの層化変数での事後層を$U_1,\dots,U_d,\dots,U_D$,2つめの層化変数での事後層を$U_1,\dots,U_e,\dots,U_E$とします.ここで$U_d$と$U_e$の共通部分$U_{d,e} =U_d \cap U_e$による交差分類を考えます.たとえば,1つめの層化変数を性別(男or女),2つめの層化変数を人種(白人or黒人orヒスパニック)とすると,$D = 2, E = 3$であり,交差分類を考慮すると$D \times E = 2 \times 3 = 6$個の事後層を想定していることになります.ここで,各事後層のサイズ$N_{d,e}$が既知であるとすると,$d$および$e$にわたる和$N_{d\cdot} = \sum_{e=1}^E N_{d,e}, N_{\cdot e} = \sum_{d=1}^D N_{d,e}$も既知です.各事後層のサイズの推定値$\hat{N}_{d,e}$を$e$および$e$にわたって和をとり,
\hat{N}_{d\cdot} = \sum_{e=1}^E \hat{N}_{d,e}, \quad \hat{N}_{\cdot e} = \sum_{d=1}^D \hat{N}_{d,e}
によって,それぞれの層化変数による周辺の事後層のサイズを推定します.これが$N_d$および$N_e$と合うようにウェイトを調整するのがレイキングです.
白人 | 黒人 | ヒスパニック | $\hat{N}_{d\cdot}$ | |
---|---|---|---|---|
男性 | $\hat{N}_{1,1}$ | $\hat{N}_{1,2}$ | $\hat{N}_{1,3}$ | $\hat{N}_{1\cdot}$ |
女性 | $\hat{N}_{2,1}$ | $\hat{N}_{2,2}$ | $\hat{N}_{2,3}$ | $\hat{N}_{2\cdot}$ |
$\hat{N}_{\cdot e}$ | $\hat{N}_{\cdot 1}$ | $\hat{N}_{\cdot 2}$ | $\hat{N}_{\cdot 3}$ |
レイキングの方法の1つは,iterative proportional fitting (IPF)と呼ばれる方法で,$N_{d\cdot}$によるウェイト調整と,$N_{\cdot e}$によるウェイト調整を,値が収束するまで交互に繰り返し行うというものです.
モデルベースの方法
最後に,事後層化やレイキングに関連したモデルベースの方法を紹介します.Gelman and Little (1997)は,$y$に二値変数を想定し,モデルベースの事後層化推定としてMultilevel Regression and Poststratification (MRP)という手法を提案しました.具体的な応用としては,大統領選での支持者数の推定を,州,性別,人種,年齢,学歴という5つの層化変数で事後層化し,各事後層のサイズの情報を用いて事後層化推定を行います.ここでGelman and Little (1997)は,各事後層の推定に変量効果を含んだロジスティック回帰(Multilevel regression)を用いていることから,モデルベースの事後層化推定という手法だとみなせます.
MRPを用いると,事後層ごとの回答率の違いによるバイアスを補正することが期待されます.また,母集団全体(全米)での支持者数だけでなく,層化変数から構成される任意の部分母集団の支持者数も推定することが可能です.たとえば,各州の支持者数を推定したければ,各事後層の支持者数の推定値を,性別と人種と年齢と学歴について和をとればよいわけです.MRPによる手法は,現代においても特に計量政治学や標本調査論などの分野で盛んに研究がなされています.
おわりに
株式会社Nospareには,統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.