14
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

一般化ベイズ法とは (後編)

Last updated at Posted at 2022-05-20

東京大学・株式会社Nospareの菅澤です.前回の記事に引き続き一般化ベイズ(general Bayes)法について紹介します.

今回は一般化事後分布の理論的裏付けやlearning rateについて解説します.

一般化事後分布の妥当性

$Y_n$を(サンプルサイズが$n$の)観測データの集合,$\ell(Y_n,\theta)$をパラメータ$\theta$を推定するための損失関数とします.

このとき一般化事後分布は以下のように定義されていました.

\pi(\theta\mid Y_n) \propto \underbrace{\pi(\theta)}_{事前分布} \times \underbrace{\exp(-\omega \ell(Y_n,\theta))}_{\text{損失関数によるデータの情報}}

このような事後分布の形に対して理論的妥当性を与える方法としてはいくつかのアプローチが考えられます.多くはサンプルサイズが大きい状況での漸近的な性質を調べるアプローチが主流でしたが,Bissiri et al. (2016)では「事前信念$\pi(\theta)$をどのように更新して事後信念$\pi(\theta|Y_n)$を得れば良いか」といった観点で,意思決定論に基づいた一般化事後分布の妥当性を与えています.

今,$\nu$を$\theta$が存在する空間上の確率分布とします.まず,事前分布$\pi(\theta)$が与えられたもとで「最適な」事後分布$\hat{\nu}(\theta)$を与えるための損失関数を定義します.すなわち,$L(\nu; \pi, Y_n)$を分布$\nu$に対する損失関数として

\hat{\nu}={\rm argmin}_\nu L(\nu; \pi, Y_n)

として事後分布$\hat{\nu}$を導出することを考えます.これは事前分布$\pi(\theta)$とデータ$Y_n$が所与のもとで意思決定論的に事後分布を与えています.以下では,$\ell$(パラメータに対する損失)と$L$(事後分布に対する損失)の2種類の損失関数が登場することに注意してください.

まず,事後分布を決定するための損失関数$L(\nu; \pi, Y_n)$や事後分布$\pi(\theta|Y_n)$が満たすべき条件について考えていきます.

条件1: 事後分布の一貫性 (coherency)

損失関数$\ell(\theta,Y_n)$の情報による事前分布$\pi(\theta)$の更新を考えると,ある関数$\psi$を用いて事後分布が

\pi(\theta|Y_n)=\psi\{\ell(\theta,Y_n), \pi(\theta)\}

と表現できることを仮定するのは自然です.ここで更新の一貫性を以下のように定義します.

\psi[\ell(\theta,y_{2}), \psi\{\ell(\theta,y_{1}), \pi(\theta)\}]
=\psi\{\ell(\theta,y_{1})+\ell(\theta,y_{2}), \pi(\theta)\}

右辺はデータ$(y_1,y_2)$を用いて得られた事後分布を示しており,左辺は$y_1, y_2$の順に情報を与えて最終的に得られた事後分布を表しています.したがって,同じデータであれば更新の順序によらず同じ事後分布が得られるというのが一貫性の条件です.

条件2: 事後分布に対する損失の加法性 (additivity)

「データ$Y_n$と事前分布$\pi(\theta)$が与える情報が互いに独立である」を反映した条件として,損失関数の形を次のような加法的な形に限定します.

L(\nu; \pi, Y_n)=h_1(\nu,Y_n)+h_2(\nu,\pi)

ここで$h_1, h_2$はそれぞれ確率分布に対する損失関数であり,それぞれデータおよび事前分布に対する「忠実度」を表します.以下では具体的な$h_1$と$h_2$の形について考えていきます.

事後分布に対する具体的な損失関数

まず,一貫性の条件のもと$h_2$はカルバック・ライブラー(KL)ダイバージェンスでなければならないことが証明(Bissiri et al. (2016)を参照)できます.すなわち

h_2(\nu,\pi)=d_{KL}(\nu,\pi)\equiv \int \nu(\theta)\log\{\nu(\theta)/\pi(\theta)\}d\theta

となります.

次に$h_1$の形を考えるために,まず所与の$\ell(\theta,Y_n)$に対して,どのような確率分布$\nu(\theta)$が好ましいかについて考えてみます.仮に2つの確率分布$\nu_1, \nu_2$に対して

\iint \ell(\theta, y)dF_0(y)\nu_1(\theta)d\theta \leq \iint \ell(\theta, y)dF_0(y)\nu_2(\theta)d\theta 

が成り立っていた場合,$\nu_2$よりも$\nu_1$の方が好ましいと考えられます.(上式で$F_0$は真のデータ生成過程を表します.) これは,上式における$\int \ell(\theta, y)dF_0(y)$が母集団における損失関数とみなすことができ,$\nu_1$は$\nu_2$と比べて母集団での損失が小さくなる領域により大きい確率のマスを持つと解釈できるからです.したがって,目的関数$\ell(\theta, y)$に対して忠実な確率分布$\nu$は

\iint \ell(\theta, y)dF_0(y)\nu(\theta)d\theta

を最小化するように決定すれば良いことがわかります.もちろん$F_0$は未知のため経験分布で近似します.故に$h_1$の形として

h_1(\nu, Y_n)=\int \ell(\theta, Y_n)\nu(\theta)d\theta

を採用します.

上記の議論をまとめますと,事後分布を決定するための損失関数の形は

L(\nu; \pi, Y_n)=\int \ell(\theta, Y_n)\nu(\theta)d\theta + d_{KL}(\nu,\pi)

となります.この関数を事後分布について最小化することは,事前分布とデータに対する忠実度のバランスを取るような形で事後分布を決めていることに相当します.

実は,上記の関数を$\nu$について最小化する問題は解析的に解くことができ,以下の結果を得ることができます.

\hat{\nu}(\theta)={\rm argmin}_\nu L(\nu; \pi, Y_n)=\frac{\exp\{-\ell(\theta, Y_n)\}\pi(\theta)}{\int\exp\{-\ell(\theta, Y_n)\}\pi(\theta)d\theta}

ただし,上記の表現は分母の積分が有限である場合に限ります.このように,事後分布に対する適切な損失関数を設計し,それを最小化する形で一般化事後分布の形の妥当性を与えることができます.より詳細な議論はBissiri et al. (2016)を参照してください.

learning rateの必要性とその選択

これまでの議論によって一般化事後分布の「形」の妥当性を与えることができましたが,実用上は損失関数$\ell(\theta, Y_n)$のスケーリングについて真面目に考える必要があります.仮に定数$w>0$を用いて損失関数$w\ell(\theta, Y_n)$を考えてみますと,$w$の値によって最小化を達成する$\theta$は不変ですが,事後分布を決定する損失関数の形状が変わってきます.($w$が大きいとデータの忠実度により重みが与えられます.)

その結果,一般化事後分布は

\hat{\nu}(\theta)=\frac{\exp\{-w\ell(\theta, Y_n)\}\pi(\theta)}{\int\exp\{-w\ell(\theta, Y_n)\}\pi(\theta)d\theta}

という形になります.
事後分布自体の性質として,$w$が大きいほど事後分布の不確実性が小さくなります.(ある一点により集中した事後分布になります.)この$w$はlearning rateと呼ばれており,一般化事後分布を実際に使う上で調整が必要なチューニングパラメータです.

$w$の選択方法についてはこれまでにいくつかの提案手法がありますが,代表的なものは以下の3つです.

  • calibrationによる方法 (Syring and Martin, 2019): 一般化事後分布が与える信頼領域が妥当な被覆確率を保持するように$w$を選択する方法
  • 情報量マッチングによる方法 (Lyddon et al., 2019): 一般化事後分布の漸近分散と元の損失関数$\ell(\theta, Y_n)$の最小化によって与えられる推定量の漸近分散を合わせるように$w$を調整する方法
  • 逐次予測を最適にする方法 (Grünwald and van Ommen, 2017): 逐次的な予測精度が高くなるように$w$を決定する方法

また,Wu and Martin (2022)では,上記の方法の比較検討を行なっています.

おわりに

今回は一般化ベイズ法について,一般化事後分布の妥当性やlearning rateについて紹介しました.一般化ベイズ法は興味のあるパラメータに対する損失関数に基づくベイズ推測の枠組みを与えてくれますが,learning rateの適切な調整方法や従属データでの議論など,実用上クリアするべき課題が残っていますので今後も様々な研究が行われていくと思われます.

株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.

株式会社Nospare

14
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
14
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?