#はじめに
千葉大学大/Nospareの米倉です.今回はベイジアン情報量規準(BIC)について解説をしたいと思います.理由は赤池情報量規準(AIC)についての解説はよく見かけますが,BICはあんまり見かけない気がしたからです.AICについては,例えば川久保先生の記事等を参照して下さい.
#エビデンス(周辺尤度)とベイズファクター
まずベイズ統計学の文脈で,エビデンスと呼ばれるものについて解説します.エビデンスは周辺尤度ともよばれます.今データ$y=(y_1,...,y_n)$がi.i.d.で観測されたとしましょう.この時ベイズ統計学ではパラメタ$\theta$に対して事前分布$p(\theta)$と尤度関数$L(y\mid\theta)$を分析者が設定し,事後分布$\Pi(\theta\mid y)=\frac{L(y\mid\theta)p(\theta)}{m(y)}$を求めることを考えます.ここで$$m(y)=\int L(y\mid\theta)p(\theta)d\theta$$のことをエビデンス(周辺尤度)と呼び,ベイズ統計学の枠組みでモデル選択を行う際にとても重要な量になります.
何故モデル選択を行う際に重要となるのでしょうか?今二つのモデル$\mathcal{M}_1$,$\mathcal{M}_2$があるとしましょう.この時ベイズ統計学では,$$BF(1,2):=\frac{\int L(y\mid\theta_1)p(\theta_1)d\theta_1}{\int L(y\mid\theta_2)p(\theta_2)d\theta_2}$$のことを(モデル1と2の)「ベイズファクター」と呼びます.つまりベイズファクターとは,それぞれのモデルのエビデンスの比です.
ベイズファクターの性質として,モデル1の方がモデル2よりデータにフィットしているならば,サンプルサイズの$n$を大きくすると,その値が$+\infty$に近づきます.逆にモデル2の方がフィットしていると,$0$に値が近づきます.よって,ベイズファクターの値を見てモデル1か2,どちらを使う方がいいのかを決めることが出来ます.ベイズファクターの性質等について詳しくは,例えば,Chib and Kuffner (2016)を参考にしてみてください.また定義より,エビデンスの対数を取ったものは$$\log m(y)=\log L(y\mid\theta)+\log p(\theta)-\log\Pi(\theta\mid y)$$が常に成立します.
#ラプラス近似
エビデンスは上で確認した通り,モデル選択の際に良い性質を持っています.しかしながらエビデンスを求めるときの積分,つまり$\int L(y\mid\theta)p(\theta)d\theta$は,一般に解析的に求められることが困難であるという弱点を抱えています.そこで何かしらの積分の近似を考える必要があるのですが,今回はラプラス近似を用いることを考えてみます.
ラプラス近似のアイディアを簡単に言うと,密度関数はある条件の下で最尤推定値を中心とした正規分布で近似できる,というものです.詳しくは,Kass et al. (1990)を参照して下さい.ラプラス近似を事後分布に適用し対数を取って2倍すると,$$2\log m(y)\approx 2\log L(y\mid\hat\theta)+2\log p(\hat\theta)+d\log 2\pi-d\log n-\log det(J(\hat\theta))$$
という関係が成立することを示すことが出来ます.ここで$\hat\theta$は最尤推定値,$d$はパラメタ$\theta$の次元,$J(\hat\theta)$は$\log L(y\mid\theta)$を$\theta$に関して二階微分し最尤推定値で評価した行列を$n$で割ったもの,$det(A)$は行列$A$の行列式を表します.本当はもう少し色々な項が出てくるのですが,ここでは簡単化のために省略しています.
#BIC
$n\rightarrow\infty$としたとき,上のラプラス近似で得た式の$\log p(\hat\theta), \log det(J(\hat\theta))$はある仮定の下で定数に収束することが示せ,また$d\log 2\pi$はそもそも定数です.そこで,Schwarz (1978)はラプラス近似で得た式でそれらの項を無視した$2\log L(y\mid\hat\theta)-d\log n$をモデル選択で用いることを提唱しました.通常AICとの整合性から,これにマイナスをかけて$$BIC=-2\log L(y\mid\hat\theta)+d\log n$$をベイジアン情報量規準(BIC)とよび,この値が小さいモデルを良いモデルとして選びます.まとめると,BICとはエビデンスのラプラス近似です.
#BICの注意点
導出から分かると思いますが,BICはパラメタの推定として最尤推定を採用しています.そのため,ベイジアンという名前に反してBICは頻度論的世界観の情報量規準です.実際,事後分布をラプラス近似できる条件は,最尤推定量の一致性や漸近正規性の条件と密接に関係しています.
より「ベイズ的」な情報量規準として,例えば偏差情報量規準(DIC)や広く使える情報量規準(WAIC)などがありますが,これらについても今後機会があれば解説していきます!
#一緒にお仕事をしましょう!
今回の内容に関連する共同研究・各種お問い合わせにつきましては,お気軽に米倉までご連絡ください.また,株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.