確率モデル
未知パラメータ$\omega \in \mathcal{W}$、観測データ$\mathcal{D}$とする。
ベイズ学習では、以下の分布を用いる。
モデル分布
p(\mathcal{D};\omega)
事前分布
p(\omega)
事後分布
p(\omega|\mathcal{D})=\frac{p(\mathcal{D};\omega)p(\omega)}{p(\mathcal{D})}
周辺尤度
p(\mathcal{D})=\int_{\mathcal{W}}{p(\mathcal{D},\omega)}dw=\int_{\mathcal{W}}{p(\mathcal{D};\omega)p(\omega)}d\omega
MAP推定
あるデータが得られたときに、尤もらしいパラメータを事後分布の最大化によって決める。
これは、データの得られる確率が最も高くなるパラメータを推定することである。
\hat{\omega}^{\mathrm{MAP}}=\mathrm{argmax}_{\omega}~p(\omega|\mathcal{D})
事前分布を一様分布としたのが最尤推定となる
ベイズ学習
ここでは、予測分布のみ記す。
p(\mathcal{D}_{new}|\mathcal{D})=\int_{\mathcal{W}}{p(\mathcal{D}_{new},\omega|\mathcal{D})}d\omega=\frac{1}{p(\mathcal{D})}\int_{\mathcal{W}}
{p(\mathcal{D}_{new},\omega,\mathcal{D})}d\omega=\frac{1}{p(\mathcal{D})}\int_{\mathcal{W}}
{p(\mathcal{D}_{new}|\omega,\mathcal{D})p(\omega,\mathcal{D})}d\omega
最後の式でデータ$\mathcal{D}$とパラメータ$\omega$が与えられている状況は、
パラメータ$\omega$のみが与えられる状況と等しい。したがって、
p(\mathcal{D}_{new}|\mathcal{D})=\frac{1}{p(\mathcal{D})}\int_{\mathcal{W}}
{p(\mathcal{D}_{new};\omega)p(\omega,\mathcal{D})}d\omega
経験ベイズ学習
事前分布として、ハイパーパラメータ$\kappa$に依存する分布$p(\omega|\kappa)$を用いる。
これは、事前分布を複数のモデルから選択可能にすることで、より適したモデルを選ぶことが可能になるためである。
この時、ハイパーパラメータが与えられて直接データ$\mathcal{D}$を観測する確率(周辺尤度)は、
p(\mathcal{D};\kappa)=\int_{\mathcal{W}}{p(\mathcal{D},\omega|\kappa)}d\omega=\int_{\mathcal{W}}{p(\mathcal{D}|\omega,\kappa)p(\omega|\kappa)}d\omega
最後の式でパラメータ$\omega$,$\kappa$が与えられている状況は、
パラメータ$\omega$のみが与えられる状況と等しい。したがって、
p(\mathcal{D};\kappa)=\int_{\mathcal{W}}{p(\mathcal{D}|\omega)p(\omega|\kappa)}d\omega
これを$\kappa$について最大化すれば、ハイパーパラメータを推定できる。