共役事前分布
事前分布$p(\omega)$と事後分布$p(\omega|\mathcal{D})$とが同じ関数系になるような事前分布のこと
等方的ガウス分布モデル
p(\mathcal{D}|\omega)=\frac{1}{(2\pi\sigma^2)^{\frac{NM}{2}}}exp(-\frac{1}{2\sigma^2}\sum_n\lVert x^{(n)}-\mu \lVert^2)
$N$はデータ数、$M$はデータの次元である($x^{(n)} \in \mathbb{R}^M$)。
ここで、平均$\mu$のみをベイズ学習する場合を考える。
\displaylines{
p(\mathcal{D}|\mu)\propto exp(-\frac{1}{2\sigma^2}\sum_n\lVert x^{(n)}-\mu \lVert^2)\\
=exp(-\frac{1}{2\sigma^2}\sum_n\lVert (x^{(n)}-\bar{x})+(\bar{x}-\mu) \lVert^2)\\
=exp(-\frac{1}{2\sigma^2}(\sum_n\lVert x^{(n)}-\bar{x}\lVert^2+N\Vert \bar{x}-\mu\Vert^2 )\\
\propto exp(-\frac{N}{2\sigma^2}\lVert \bar{x}-\mu \lVert^2)\\
\propto \mathcal{N}_M(\mu;\bar{x},\frac{\sigma^2}{N}I_{M})
}
$I_{M}$は$M$次元単位行列、$\bar{x}$は標本平均である。$\bar{x}$や各$x^{(n)}$は既知であるため、ベイズ学習をする上では定数扱いである。
ここで、共役事前分布について考える。等方的ガウス分布モデルは、積について閉じているため、事前分布として以下を用いることができる。
p(\mu|\mu_0,\sigma_0^2)=\mathcal{N}_M(\mu;\mu_0,\sigma_0^2I_M)\propto exp(-\frac{1}{2\sigma_0^2}\Vert \mu-\mu_0 \Vert^2)
この共役事前分布を用いて計算を進めると、事後分布は以下のように書ける。
p(\mu|\mathcal{D},\mu_0,\sigma_0^2)=\mathcal{N}_M(\mu;\frac{N\sigma^{-2}\bar{x}+\sigma_0^{-2}\mu_0}{N\sigma^{-2}+\sigma_0^{-2}},\frac{1}{N\sigma^{-2}+\sigma_0^{-2}})
周辺尤度
周辺尤度の計算は、以下によって与えられる。
p(\mathcal{D}|\kappa)=\int_\mathcal{W}{p(\mathcal{D|\omega})p(\omega|\kappa)}d\omega
等方的ガウス分布では、計算を進めると以下のように書ける。
p(\mathcal{D}|\mu_0,\sigma_0^2)=\frac{1}{(2\pi\sigma^{2})^{MN/2}}
\bigg( \frac{\sigma^2}{N\sigma_0^2+\sigma^2} \bigg)^{M/2}exp\bigg( \frac{(N\sigma^{-2}\bar{x}+\sigma_0^{-2}\mu_0)^2}{2(N\sigma^{-2}+\sigma_0^{-2})}-\frac{N\sigma^{-2}\bar{x^2}+\sigma_0^{-2}\mu_0^2}{2} \bigg)
経験ベイズ学習
経験ベイズ学習では、周辺尤度の最大化を行う。
これは、ベイズ自由エネルギーの最小化として扱うことができる。
\hat{\kappa}=argmin_\kappa\big(-log(p(\mathcal{D}|\kappa))\big)
等方的ガウス分布に関して、$\mu_0$のみの学習を行うと$\mu_0=\bar{x}$が得られる。
これは、最尤推定の結果と一致する。