#はじめに
千葉大学大/Nospareの米倉です.今回はDeviance Information Criterion(DIC)について解説をしたいと思います.頻度論的な情報量規準である赤池情報量規準(AIC)については川久保先生の記事,ベイジアン情報量規準(BIC)については僕の記事を例えば参照してみてください.DICはAICやBICと違い,ベイズ的な情報量規準です.
#DICの定義と数値計算
DICは Spiegelhalter et al. (2002)で提案されました.まずi.i.dで$n$個のデータが観測されたとし,これを$y_{0:n}$と書きます.また対応する事後分布を$\Pi(\theta\mid y_{0:n})$,事前分布を$\pi(\theta)$,対数尤度関数を$\ell_{\theta}(y_{0:n})$と書くことにします.この時DICの世界観では推定量として事後平均$\theta_{PM}:=\int\theta\Pi(\theta\mid y_{0:n})d\theta$を採用し,予測モデルとして対数尤度を事後平均で評価した物$\ell_{\theta_{PM}}(y_{0:n})$を採用します.事後平均は事後モードでもよいです.
この時,Spiegelhalter et al. (2002)は$$\mathcal{D(\theta,y_{0:n})}:=-2\ell_{\theta}(y_{0:n})$$をDevianceとして定義して,事前分布からサンプリングした時と事後平均でのDevianceの差$\mathcal{DD}(y_{0:n},\theta,\theta_{PM}):=\mathcal{D(\theta,y_{0:n})}-\mathcal{D}(\theta_{PM},y_{0:n})$を考えました.この差をつかい,AICやBICの罰則項にあたる有効パラメータ数を,彼らの論文では$\mathcal{DD}(y_{0:n},\theta,\theta_{PM})$の事後平均,つまり,$$p_{DIC}:=\mathbb{E}[\mathcal{DD}(y_{0:n},\theta,\theta_{PM})]=2\ell_{\theta_{PM}}(y_{0:n})-2\int\ell_{\theta}(y)\Pi(\theta\mid y_{0:n})d\theta$$
と定義しました.この罰則項をつかい,DICは$$DIC:=\mathcal{D}(\theta_{PM},y_{0:n})+2p_{DIC}$$と定義します.あるいは,$-2\int\ell_{\theta_{PM}}(y)\Pi(\theta\mid y_{0:n})d\theta+p_{DIC}=2\ell_{\theta_{PM}}(y_{0:n})-4\int\ell_{\theta_{PM}}(y)\Pi(\theta\mid y_{0:n})d\theta$であるので,等価な表現として$$DIC=-2\int\ell_{\theta}(y_{0:n})\Pi(\theta\mid y_{0:n})d\theta+p_{DIC}$$を得ます.なのでDICは対数尤度の事後平均を予測モデルとして採用しているとも理解できます.
一般的には解析的にDICは求まらないので,例えばMCMCを用いて事後分布からN個のサンプル$\tilde\theta_{i}$が得られたときに,$\theta_{PM}$は$N^{-1}\sum_{i=1}^N\tilde\theta_{i}$で計算し,$\sum_{i=1}^N\ell_{\tilde\theta_{i}}(y_{0:n})$で$\int\ell_{\theta}(y)\Pi(\theta\mid y_{0:n})d\theta$を近似することで,DICは計算できます.AICとBICと同じく,小さいDICの値を持つモデルを良いモデルとして採用します.推定量として事後モードでも理論的にはいいのですが,計算の観点から考えると事後平均の方が求めやすいです.
#DICの理論的根拠
Spiegelhalter et al. (2002)ではDICの理論的根拠として,サンプルサイズを大きくするとAICと同じような性質をもつことを発見的な議論で述べているだけで,理論的根拠に欠けているものでした.このギャップを解決した論文の一つがAndo (2007)です.
今$p_\star(y_{0:n})$を真の分布として,$$-\int p_\star(y_{0:n})\ell_{\theta}(y_{0:n})dy_{0:n}$$を期待対数尤度と呼びます.Ando (2007)ではDICの導出を期待対数尤度の事後平均の最大化問題として捉えます.この時,期待対数尤度の事後平均の推定量として特に対数尤度の事後平均$\int\ell_{\theta}(y)\Pi(\theta\mid y_{0:n})d\theta$を採用し,AICの時と同じように予測と推定で同じデータを用いたことに起因するバイアスを除去すると,DICが導出できることを示しました.Spiegelhalter et al. (2002)では用いる統計モデルの中に真の分布が含まれていることを仮定していますが,Ando (2007)ではその仮定を外し,さらに一般的なDIC型の情報量規準を提案しています.
#参考文献
.Spiegelhalter, D. J., Best, N. G., Carlin, B. P., and Van Der Linde, A. (2002). Bayesian measures of
model complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical Methodology),
64(4):583–639
・Ando, T. (2007). Bayesian predictive information criterion for the evaluation of hierarchical Bayesian
and empirical Bayes models. Biometrika, 94(2):443–458.
#一緒にお仕事をしましょう!
今回の内容に関連する共同研究・各種お問い合わせにつきましては,お気軽に米倉までご連絡ください.また,株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.