はじめに
千葉大学・株式会社Nospareの川久保です.今回は,標本調査の分野で用いられるsurvey weightについて説明します.survey weightを用いて,バイアスのかかったサンプルに対して,バイアスを除去した推定を行うことができます.また標本調査にとどまらず,因果推論や共変量シフトの分野で,同様の考え方を用いた手法が提案されているので,それらについても簡単に触れたいと思います.
包含確率
サイズ$N$の有限母集団の変数値$y_1,\dots,y_N$に関する統計的推測を考えます.添字$i$の母集団における集合を$U = \{ 1,\dots,N \}$とします.ここからサンプルサイズ$n$の標本を抽出するとします.このとき第$i$要素が標本の中に含まれる確率$\pi_i$のことを,**包含確率(inclusion probability)**と言います.例えば,非復元単純無作為抽出(simple random sampling without replacement)の場合は,すべての$i$について
\pi_i = { {}_{N-1}C_{n-1} \over {}_N C_n } = {n \over N}, \tag{1}
が成り立ちます.ただし,
{}_N C_n = {N! \over n! (N-n)!}
で,$N$個の中から$n$個を重複なく選ぶ組み合わせの数を表します.(1)式は,母集団$\{ 1,\dots,N \}$の中から$n$個を重複なく選ぶ組み合わせの総数を分母として,第$i$要素が標本に選ばれる組み合わせの場合の数を分子として確率を計算していますが,分子の${}_{N-1} C_{n-1} $は第$i$要素以外の$N-1$個の中から$n-1$個を選ぶ組み合わせを数えています.
一方,$i$ごとに$\pi_i$の値が異なる標本設計も考えられますし,現実にはこのような標本調査の方が多いです.例えば,母集団について全数がわかっている補助変数の値に比例させた包含確率を用いて標本抽出を行う**確率比例抽出法(probability proportional-to-size sampling)や,母集団をいくつかの層に分けて,層の中で非復元単純無作為抽出や確率比例抽出を行う層化抽出法(stratified sampling)**などがあります.層化抽出の例を見てみます.母集団を$H$個の層に分割し,第$h$層に含まれる要素の数(層サイズ)を$N_h$とする.ここからサンプルサイズ$n_h$で非復元単純無作為抽出するとき,第$h$層に含まれる要素の包含確率は,
\pi_i = { {}_{N_h - 1} C_{n_h - 1} \over {}_{N_h} C_{n_h} } = {n_h \over N_h}
となり,層ごとに包含確率が異なります.
復元抽出法では,同じ要素が2回以上抽出される確率が0ではないため,少し考え方が異なります.サンプルサイズ$n$の復元抽出では,サイズ1の標本抽出を$n$回繰り返すと考え,母集団の第$i$要素が1回ずつの標本抽出で選ばれる確率を$p_i$とします.このとき第$i$要素の包含確率は,$n$回の標本抽出の繰り返しで1度もサンプルとして選ばれない事象の余事象の確率なので,
$$
\pi_i = 1 - (1 - p_i)^n
$$
です.
survey weightを用いた推定
survey weightの定義
以後,話を非復元抽出に限定します.第$i$要素の包含確率が$\pi_i$であるとき,
$$
w_i = {1 \over \pi_i}
$$
として定義される$w_i$を,第$i$要素のsurvey weight(あるいはsampling weight,design weight)と言います.直感的には$w_i$は,その標本が母集団のいくつの要素を代表しているかを表します.例えば層化抽出法において層を人種で分割するとします.マイノリティーの人種の層は,調査のとりこぼしがないように包含確率$\pi_i = n_h / N_h$を大きめに,逆にマジョリティーの人種の層は包含確率を小さめに設定することがあります.このとき,マイノリティーの人種の標本はsurvey weightが相対的に小さく,マジョリティーの人種の標本はsurvey weightが大きくなりますが,マジョリティーの人種の標本の方が代表している母集団の要素が多いことを意味しています.
Horvitz–Thompson推定量
ここでサイズ$N$の有限母集団の変数値$y_1,\dots,y_N$について,その合計
$$
\tau_y = \sum_{i=1}^N y_i
$$
を,標本から推定する問題を考えます.サンプルサイズが$n$,サンプルに含まれる添字$i$の集合を$\mathcal{S}$とします.つまり$\#(\mathcal{S}) = n$です.ここで,survey weightを用いた$\tau_y$の推定量として,
\hat{\tau}_y = \sum_{i \in \mathcal{S}} w_iy_i \tag{2}
をHorvitz–Thompson(HT)推定量と言います.標本$y_i$が代表している母集団の要素数$w_i$をかけて,足し上げています.
(2)式の推定量は$\tau_y$の不偏推定量となるのですが,このことを示すのには以前の記事で紹介したように,第$i$要素が標本として選ばれれば1,選ばれなければ0をとる確率変数$Z_i \ (i=1,\dots,N)$を導入します.この確率変数は,$P(Z_i = 1) = \pi_i$($\pi_i$は包含確率)なので,$E[Z_i] = \pi_i$が成り立ちます.この$Z_i$を用いて(2)式のHT推定量は,
\hat{\tau}_y = \sum_{i=1}^N Z_i w_i y_i, \tag{3}
と書き直せます.ここで確率変数なのは$Z_i$で,あくまで$y_i$は定数(非確率変数)であることに気を付けてください.つまりHT推定量の不偏性とは,標本誤差のrandomnessについて不偏ということです.このような不偏性をdesign unbiasednessと言います.さてHT推定量の不偏性は,(3)式を$Z_i$の分布で期待値をとることで確認できます.
\begin{align}
E[\hat{\tau}_y] &= \sum_{i=1}^N E[Z_i]w_iy_i \\
&= \sum_{i=1}^N \pi_i {1 \over \pi_i} y_i \quad (\because w_i = \pi_i^{-1}) \\
&= \tau_y
\end{align}
母集団平均の推定
次に母集団平均
\mu_y = {1 \over N}\sum_{i=1}^N y_i
の推定を考えます.(2)式のHT推定量から自然に
\hat{\mu}_y = {1 \over N}\hat{\tau}_y = {1 \over N}\sum_{i \in \mathcal{S}} w_iy_i, \tag{4}
という推定量か,もしくは
\tilde{\mu}_y = {\sum_{i \in \mathcal{S}} w_iy_i \over \sum_{j \in \mathcal{S}} w_j} = \sum_{i \in \mathcal{S}} \tilde{w}_i y_i, \tag{5}
という推定量が考えられます.ただし,
\tilde{w}_i = {w_i \over \sum_{j \in \mathcal{S}} w_j}
であり,$\sum_{i \in \mathcal{S}} \tilde{w}_i = 1$が成り立つことから,基準化されたweightと見ることができます.survey weightは標本が代表する母集団の要素の数を表していることから,(5)式の分母の$\sum_{j \in \mathcal{S}} w_j$は母集団サイズ$N$の推定量と解釈され,(4)式の分母の$N$をその推定量で置き換えたものが(5)式です.標本抽出にバイアスがかかっている(というよりバイアスをかけている)ため,単純な標本平均$n^{-1}\sum_{i \in \mathcal{S}} y_i$ではなく,weightを使った加重平均をとる必要があるわけです.
他分野との関連
サンプルにバイアスがかかっている(バイアスをかけている)場合に,weightを使った推定を行う手法をいくつか見てきました.これまでは,標本調査における有限母集団の特性値の推定問題において,標本調査のデザインによってsurvey weightが既知である場合のお話でした.バイアスのかかったサンプルに対してweightを用いた推定を行うという考え方は,標本調査の分野にとどまりません.
因果推論
因果推論の分野では,ある処置(treatment)を施した場合と,施さなかった場合の差,つまり処置効果を推定したいという問題があります.しかし処置への割り当てが無作為でない場合,処置群と対象群の標本平均の差を単純に計算しても,バイアスがかかってしまいます.例えば教育プログラムの効果を評価する際,プログラムへの参加が無作為割り当てでなく希望制であった場合,元々教育意欲の高い者がプログラムに参加する(処置群に入る)可能性が高く,効果を過大評価してしまうことが懸念されます.そこで,様々な補助変数を用いて,処置群に入る確率を推定する試みがなされます.この確率は**傾向スコア(propensity score)**と呼ばれ,推定された傾向スコアを用いた様々な処置効果の推定方法が提案されています.傾向スコアは,標本調査における包含確率と同様の役割を持っていると考えられ,傾向スコアの逆数をweightとして用いた推定手法も提案されています.
共変量シフト
回帰モデル$f(y \mid x)$において,$f$の推定に使うサンプル$x$(訓練データ)の分布と,推定された$f$から新しい$y$を予測するのに用いる新しい$x$の分布が異なっている状況が考えられ,これを共変量シフトと呼びます.この状況は,訓練データが推定したい母集団からのバイアスのかかったサンプルであると見なすことができます.そこで,予測に用いる$x$の確率密度と,訓練データの$x$の確率密度との比を推定して,weightとして用いる手法が提案されています.
おわりに
株式会社Nospareには,統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.