はじめに
ベイズ推定を学ぼうとしたとき、各種確率分布の定義から共役事前分布やMCMC、変分ベイズ法など、キーワードが多い上に一つ一つが割と重かったり、全体感が掴めていないまま具体的なモデルでのベイズ推定の導出を読んでも「いま何のために何の分布求めているんだっけ・・」と迷子になった記憶があります。
そこで本記事では具体的な確率分布や近似推論には立ち入らずに**「ベイズ推定はどのように予測を構成するのか」**を解説してみました。
ベイズ推定
未知の確率分布$q(X)$からの独立同分布な$N$個のサンプル(観測値)を$\{x_n\}_{n=1}^N$として、これらの観測値に基づいて$x_{N+1}$を予測したい状況を考えます。言い換えると観測した$\{x_n\}_{n=1}^N$を根拠として、$X$が従う分布を推定する問題です。
ここでやりたいことは、$\{x_n\}_{n=1}^N$を条件として$X$の予測分布:
p(X|\{x_n\}_{n=1}^N)
を構成することです。この予測分布$p(X|\{x_n\}_{n=1}^N)$を構成するために、パラメータ$\theta$により分布形が決まるパラメトリックモデル$p(X|\theta)$を導入します。すると、次のように式を展開できます。
\begin{align}
p(X|\{x_n\}_{n=1}^N)
&= \frac{p(X,\{x_n\}_{n=1}^N)}{p(\{x_n\}_{n=1}^N)} \\
&= \frac{1}{p(\{x_n\}_{n=1}^N)} \int p(X,\{x_n\}_{n=1}^N,\theta) d\theta \\
&= \frac{1}{p(\{x_n\}_{n=1}^N)} \int p(X,\{x_n\}_{n=1}^N|\theta) p(\theta) d\theta \\
&= \frac{1}{p(\{x_n\}_{n=1}^N)} \int p(X|\{x_n\}_{n=1}^N,\theta) p(\{x_n\}_{n=1}^N|\theta) p(\theta) d\theta \\
&= \int p(X|\theta) \frac{p(\{x_n\}_{n=1}^N|\theta) p(\theta)}{p(\{x_n\}_{n=1}^N)} d\theta \\
&= \int p(X|\theta) p(\theta|\{x_n\}_{n=1}^N) d\theta \\
\end{align}
これがベイズ推定による予測分布 となります。
1つ目の等号は条件付確率の定義:
P(B|A) = \frac{P(A,B)}{P(A)}
2つ目の等号はパラメータの周辺化(積分消去):
P(A) = \int P(A,B) dB
を介したパラメトリックモデルの導入です。3つ目と4つ目の等号も条件付確率、5つ目の等号で$p(X|\{x_n\}_{n=1}^N,\theta)=p(X|\theta)$は導入したモデルの定義より、6つ目の等号はベイズの定理(条件付確率の定義):
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
より、です。$p(\theta)$は$\theta$の事前分布で、一方最後の式にある$p(\theta|\{x_n\}_{n=1}^N)$は、観測値$\{x_n\}_{n=1}^N$を根拠とした$\theta$の分布であり、 事後分布 と呼ばれます。
まとめると観測値$\{x_n\}_{n=1}^N$に基づくベイズ推定による予測分布は
\begin{align}
p(X|\{x_n\}_{n=1}^N)
&\approx \int p(X|\theta) p(\theta|\{x_n\}_{n=1}^N) d\theta \\
\end{align}
であり、言葉で言えば**「ベイズ推定による予測分布は、$p(X|\theta)$の事後分布$p(\theta|\{x_n\}_{n=1}^N)$による期待値」**です。**あくまで導入したモデル$p(X|\theta)$を介した予測であり、モデルが現実に即していなければ予測も現実から乖離してしまうことに注意が必要です。**ベイズ推定では、モデルの当てはまりの良さを測る指標も自然に導出されます。(ベイズ推定6:周辺尤度)
**ベイズ推定「できるかどうか」は事後分布$p(\theta|\{x_n\}_{n=1}^N)$による期待値を計算できるかどうかに依ります。そのため、事後分布の解析的計算を可能にするために共役事前分布を用いたり、ラプラス近似や変分ベイズ法、MCMC法などの近似手法を用いたりします。やりようはいろいろあるけれど、やることはとにかく事後分布や期待値の計算なところがあります。が、これらはあくまでモデル$p(X|\theta)$ありきでベイズ推定する「作業である」**ということは、ベイズ推定を学ぶときに一番最初に押さえておくと良いのではないかな、と思います。
次回は「ベイズ推定2:正規分布のベイズ推定」です。