8
5

「情報のプール」の観点で捉える階層モデル

Last updated at Posted at 2024-02-09

慶應義塾大学・株式会社Nospareの菅澤です.
今回は「情報のプール」という観点から階層モデルの解釈について紹介します.

階層モデルはパラメータに異質性 (個体差や地域差) があるときに便利なモデルの枠組みとして知られています.本記事では,なぜ階層モデルが異質な(グループごとに異なる)パラメータを表現するのに便利なのかについて解説をしていきます.

情報のプール: 古典的な2標本の例

まず,基礎的な統計学の教科書でもよく出てくる2標本問題について考えてみます.

X_{11},\ldots,X_{1n_1}\sim N(\theta_1, \sigma^2), \ \ \ 
X_{21},\ldots,X_{2n_2}\sim N(\theta_2, \sigma^2)

簡単のため,互いの分散は共通としておきます.$\theta_1$および$\theta_2$を推定するにあたり,以下の2つのシナリオが考えられます.

  1. $\theta_1=\theta_2$である場合,両グループのデータを使って(情報をプールして)共通の平均を推定することで,別々に推定するよりも精度を高めることが期待できます.
  2. $\theta_1\neq \theta_2$である場合,それぞれのグループのデータのみを使って平均を推定します.(情報をプールしてしまうとバイアスが生じてしまいます.)

現実問題では,$\theta_1=\theta_2$か否かはわからないため,2つの方法の中間的な方法を考えてみます.

\hat{\theta}_1=\omega \bar{X} + (1-\omega)\bar{X}_1, \ \ \ 
\hat{\theta}_2=\omega \bar{X} + (1-\omega)\bar{X}_2

ここで,$\bar{X}$は(プールした)全体平均,$\bar{X}_1, \bar{X}_2$はそれぞれのグループの平均を表します.また,$\omega$が方法1と方法2に対するウエイトを表します.

$\omega$の決め方としてはいくつかの方法が考えられます.最も極端な方法としては,$\theta_1=\theta_2$の仮説検定を行い,受容されれば$\omega=1$,棄却されれば$\omega=0$とするものです.また,ベイズ的な考え方で$\theta_1=\theta_2$となる確率のようなものが計算できたとすると,それを$\omega$に使うことも考えられます.

このように,2つのグループの類似性に注目し,互いのグループの情報をプールすることで推定精度を向上させられる可能性があります.

複数グループへの一般化

以上の議論の一般化として,$m$個のグループがあるケースを考えます.

X_{ij}\sim N(\theta_i, \sigma^2), \ \ \ \ j=1,\ldots,n_i, \ \ \ i=1,\ldots,m

これは各グループごとに平均が異なるモデルで,2標本モデルの一般化になっています.前提として,$n_i$ (グループごとのサンプルサイズ) はあまり大きくない (または一部のグループのサンプルサイズが大きくても一部のグループでは小さい) ことを想定します.これは,実際のデータ分析において細かいグループ分けを考えた際に頻繁に現れる状況です.

この設定のもとで,$\theta_i$を推定することを考えてみます.最も単純な方法はグループごとに平均 $\bar{X}_i$を計算する方法ですが,$n_i$が小さいグループでは安定的に推定できない可能性があります.

このときに,前節で議論した 「グループの類似性を考えて情報をプールする」 考え方が役に立ちます.$\theta_1,\ldots,\theta_m$の類似性を表現するため,以下のような共通の分布(モデル)を仮定します.

\theta_i\sim N(\mu, \tau^2), \ \ \  \ \ i=1,\ldots,m.

ここで,$(\mu, \tau^2)$は未知パラメータで,様々な推定方法があります.

未知パラメータの役割はそれぞれ以下の通りです.

  • $\mu$: $\theta_1,\ldots,\theta_m$が概ねどの位置にあるかを表す.
  • $\tau^2$: $\theta_1,\ldots,\theta_m$の互いの類似度(バラつき度合い)を表現する. ($\tau^2=0$の場合は$\theta_1=\ldots=\theta_m=\mu$となる.)

$X_{ij}$のモデル (正確には$X_{ij}|\theta_i$のモデル) と$\theta_i$に対するモデルの形から,$\theta_i$の事後平均($\theta_i$の点推定)が

E[\theta_i \mid X_{i1},\ldots,X_{in_i}]=\frac{\sigma^2}{n_i\tau^2 + \sigma^2}\mu + \frac{n_i\tau^2}{n_i\tau^2 + \sigma^2} \bar{X}_i

で与えられます.これは,全てのデータをプールして推定するパラメータ$\mu$と各グループの平均$\bar{X}_i$の(重み付きの)合成で与えられていることがわかります.

この推定量の形に対する重要な着眼点は以下の2点です.

  1. $\tau^2=0$のとき,$\theta_i$の点推定は全て$\mu$になる.(モデルにおいて$\tau^2=0$は$\theta_i$がバラつかないことを意味することと整合的)

  2. $n_i$が小さいほど$\mu$に対するウエイトが大きくなる.($n_i$が小さいときは$\bar{X}_i$が信用できないので,情報をプールして作られる$\mu$をより信用して使う)

このように,$\theta_i$に対して共通のモデル$N(\mu, \tau^2)$を導入することで,$(\mu, \tau^2)$の推定という形で全データの情報をプール することで安定的に$\theta_i$を推定することができます.このようなアプローチを「互いの情報を借り合って推定精度を高めている」ことから borrowing strength と呼ばれています.

この手順は,全データの情報をプールして$\theta_i$の生成分布$N(\mu, \tau^2)$を推定することで,各$\theta_i$がおおよそどのような値を取りうるかのアタリをつけておき,実際の標本平均 (各グループごとの個別の情報) と照らし合わせて$\theta_i$の最終的な推定量を作っていると解釈できます.

「モデル」と「事前分布」の違い

パラメータ$(\mu, \tau^2)$の扱い方について以下の2つの方法を考えてみます.

  1. 全データを使って$(\mu, \tau^2)$を推定する.
  2. 適当な値$\mu=\mu_0$および$\tau^2=\tau_0^2$に固定する.特に,$\tau_0^2$は大きな値に固定する.

前者の方法がこれまでに紹介した方法です.後者は,$\theta_i$に対して(無情報な)ベイズ推定を考える場合に想定されそうな設定です.

モデルの表現上は両者ともに同じようなアプローチに見えますが,前者ではborrowing strengthの効果が働くのに対して,後者ではそのような効果が現れません.その理由としては,後者の方法では「全データの情報を使って共通のパラメータを推定する」という情報をプールする重要なステップが抜け落ちているからです.

このような性質は$\theta_i$の事後平均の形からも確認できます.$\theta_i$の事後平均において$\tau^2(=\tau_0^2)$を大きくしていくと,$\bar{X}_i$に近づいていくため,情報がプールされた$\mu$の情報を使わない推定量になっていきます.

以上のような議論から,モデルの表記上は同じですが

  • 前者は「変量効果$\theta_1,\ldots,\theta_m$に対する生成分布(モデル)」
  • 後者は「固定効果$\theta_1,\ldots,\theta_m$に対する事前分布」

と解釈することができます.

一般的な階層モデル

これまでは正規分布のケースで議論をしてきましたが,以上のような考え方は一般の階層モデルにも共通するものです.一般的な階層モデルとして

X_{ij}\mid\theta_i\sim f(\theta_i), \ \ \ \ \theta_i\sim \pi(\phi)

を考えてみます.ここで,$\phi$は全データに共通するパラメータです.(モデルによっては$\theta_i$および$\phi$は多次元の可能性もあります.)

上記の階層モデルに基づいて,$\theta_i$を事後平均によって推定することを考えます.一般の分布$f, \pi$に対して事後平均の(正規分布のケースのような)綺麗な表現を得ることは困難ですが,推定量の基本的な性質は同じです.すなわち,各グループごとのサンプルサイズが大きくなかったとしても,全てのデータをプールして$\phi$を安定的に推定する($\theta_i$の生成分布を推定する)ことで,$\theta_i$の事後平均から安定的に推定することが可能になります.

このような考え方でグループごとのパラメータを推定することを想定している統計モデルは(明示的に「階層モデル」という言葉が使われていなくとも)様々なものがあります.代表例としては変量効果モデル (混合効果モデル) があります.こちらのモデルの詳細についてはこちらの記事などをご覧ください.

おわりに

株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.

株式会社Nospare

8
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
5