はじめに
千葉大学・株式会社Nospareの川久保です.これまで4回にわたって標本調査論の入門的な解説を行ってきましたが,今回はその締めくくりとして,一般化回帰推定という手法を紹介します.
差分推定量
補助変数$x$の情報を用いて,変数$y$の母集団総計$\tau_y = \sum_{i\in U}y_i$を推定する問題を考えます.ただし$N = \# U$を母集団サイズとします.$s \subseteq U$を標本の添字集合,$w_i$を抽出ウェイトとしたとき,関心のある変数$y$については$y_i \ (i\in s)$のみ観測されており,補助変数$x$については$x_i \ (i\in s)$および母集団総計$\tau_x = \sum_{i \in U}x_i$が利用可能である状況を考えます.
$x$の線形推定量$\hat{\tau}_x = \sum_{i \in s}w_ix_i$と$\tau_x$との乖離度合を両者の比としてとらえ,$y$の線形推定量$\hat{\tau}_y = \sum_{i \in s}w_iy_i$を修正した以下の推定量を比推定量と言います(標本調査論1を参照してください).
\hat{\tau}_{y,\mathrm{R}} = \frac{\tau_x}{\hat{\tau}_x} \hat{\tau}_y.
一方で,$\tau_x$と$\hat{\tau}_x$との差分の情報を用いて$\hat{\tau}_y$を修正した推定量を,差分推定量と言います.
\hat{\tau}_{y,\mathrm{D}} = \hat{\tau}_y + b(\tau_x - \hat{\tau}_x)
ここで係数$b$は既知としますが,この値を推定して用いるのが,この後説明する一般化回帰推定量です.
補助変数が$K$個利用可能である場合には,差分推定量は
\tag{1}
\begin{align*}
\hat{\tau}_{y,\mathrm{D}} &= \hat{\tau}_y + \sum_{k=1}^K b_k( \tau_{x(k)} - \hat{\tau}_{x(k)} ) \\
&= \hat{\tau}_y + (\boldsymbol{\tau}_x - \hat{\boldsymbol{\tau}}_x)^\top \boldsymbol{b}
\end{align*}
と拡張されます.ただし,$\tau_{x(k)} = \sum_{i \in U}x_{i(k)}$は$k$番目の補助変数$x_{i(k)}$の母集団総計, $\hat{\tau}_{x(k)} = \sum_{i\in s}w_ix_{i(k)}$はその線形推定量,$\boldsymbol{\tau}_x = (\tau_{x(1)},\dots,\tau_{x(K)})^\top$,$\hat{\boldsymbol{\tau}}_x = (\hat{\tau}_{x(1)},\dots,\hat{\tau}_{x(K)})^\top$,$\boldsymbol{b} = (b_1,\dots,b_K)^\top$です.
線形推定量$\hat{\tau}_y, \hat{\tau}_x$がそれぞれ$\tau_y, \tau_x$の不偏推定量なので,(1)式の差分推定量$\hat{\tau}_{y,\mathrm{D}}$は$\tau_y$の不偏推定量です.また,$\hat{\tau}_{y,\mathrm{D}}$の分散は
V(\hat{\tau}_{y,\mathrm{D}}) = V(\hat{\tau}_y) + \boldsymbol{b}^\top \boldsymbol{V}(\hat{\boldsymbol{\tau}_x}) \boldsymbol{b} -2\boldsymbol{b}^\top \boldsymbol{Cov}(\hat{\boldsymbol{\tau}}_x, \hat{\tau}_y)
と表されるため,これを最小にする係数ベクトル$\boldsymbol{b}$は,
\tilde{\boldsymbol{b}} = \boldsymbol{V}(\hat{\boldsymbol{\tau}_x})^{-1} \boldsymbol{Cov}(\hat{\boldsymbol{\tau}_x}, \hat{\tau}_y)
です.
一般化回帰推定量
差分推定量の分散を最小にする係数ベクトルを,標本から以下のように推定します.
\hat{\boldsymbol{b}} = \left( \sum_{i \in s} w_i \frac{\boldsymbol{x}_i\boldsymbol{x}_i^\top}{c_i} \right)^{-1} \sum_{i\in s}w_i\frac{\boldsymbol{x}_iy_i}{c_i}.
ただし,$c_i$は予め定めておく値で,通常は$c_i = 1$とします.また,$\boldsymbol{x}_i = (x_{i(1)},\dots,x_{i(K)})^\top$で,その1番目の説明変数は定数1,すなわち$x_{i(1)} = 1$とします.この回帰係数の推定量$\hat{\boldsymbol{b}}$を用いた$\tau_y$の推定量が,以下の一般化回帰推定量(generalized regression estimator, GREG)です.
\begin{align}
\hat{\tau}_{y,\mathrm{GREG}} &= \hat{\tau}_y + (\boldsymbol{\tau}_x - \hat{\boldsymbol{\tau}}_x)^\top \hat{\boldsymbol{b}} \\
&= \sum_{i\in s} w_i^c y_i.
\end{align}
ただし,$w_i^c = w_ig_i$は一般化回帰推定のために調整されたウェイトで,$g_i$は
g_i = 1 + (\boldsymbol{\tau}_x - \hat{\boldsymbol{\tau}}_x)^\top \left( \sum_{j \in s} w_j \frac{\boldsymbol{x}_j\boldsymbol{x}_j^\top}{c_j} \right)^{-1} \frac{\boldsymbol{x}_i}{c_i}
で定義されます.ここで$w_i^c$は,補助変数について標本の加重平均が母集団総計と一致するように調整されています.つまり,
\sum_{i \in s} w_i^c x_{i(k)} = \tau_{x(k)}
が成り立ちます.さらに$x_{i(1)} = 1$であることから,
\sum_{i \in s} w_i^c = N
も成り立ち,調整ウェイト$w_i^c$は母集団サイズへの一致もはかっています.すなわち一般化回帰推定量$\hat{\tau}_{y,\mathrm{GREG}} = \sum_{i \in s}w_i^c y_i$は,すべての補助変数について母集団総計への一致をはかる調整ウェイト$w_i^c$を用いて,$y$の母集団総計$\tau_y$を推定する手法だと理解できます.
おわりに
株式会社Nospareには,統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.