問題
1変数ガウス分布$\mathcal{N}(~x~|~\mu, \tau^{-1})$について考える、共役事前分布はガウス-ガンマ分布(2.154)で、独立同分布な観測値集合が、$\mathbf{x}=\{x_1, ..., x_N\}$であるとする。事後分布も、事前分布と同じガウス-ガンマ分布になることを示し、各パラメータに対する事後分布の式を書き下せ。
$\tau$を使うとややこしくなるので今回は$\tau$ではなく$\lambda$を使う。
解答1
今回は1変数のガウス分布において、独立同分布なN個の観測値集合、$\mathbf{x}=\{x_1, ..., x_N\}$を元にして平均$\mu$および精度パラメータ$\lambda$(分散$\sigma^2$)の両方を学習する場合の事前分布、事後分布を考えている。
事前分布は
\begin {align*}
p(\mu, \lambda)=\mathcal{N}\left(\mu | \mu_{0},(\beta \lambda)^{-1}\right) \operatorname{Gam}(\lambda | a, b)
\tag{2.154}
\end {align*}
尤度関数は
\begin {align*}
p(\mathbf{x} | \mu, \lambda)=\prod_{n=1}^{N}\left(\frac{\lambda}{2 \pi}\right)^{1 / 2} \exp \left\{-\frac{\lambda}{2}\left(x_{n}-\mu\right)^{2}\right\}
\tag{2.152}
\end {align*}
で与えられているためベイズの定理$p(\mu, \lambda | \mathbf{x}) \propto p(\mathbf{x} |\mu, \lambda)p(\mu, \lambda)$を用いてバリバリ計算してやれば事前分布と事後分布の関係性を証明することができる。しかし、計算が結構大変なため、別の方針のもとで証明していく。
参考
1変数のガウス分布において、独立同分布なN個の観測値集合、$\mathbf{x}=\{x_1, ..., x_N\}$を元にして
1.「平均値$\mu$のみを学習する場合(精度パラメータ$\lambda$が既知の時)」
事前分布
\begin {align*}
p(\mu) = \mathcal{N}(\mu | \mu_0, \lambda^{-1}_{\mu})\\
\tag{2.138}
\end {align*}
事後分布
\begin {align*}
p(\mu | \mathbf{x})=\mathcal{N}\left(\mu | \mu_{N}, \lambda_{N}^{-1}\right)
\tag{2.140}
\end {align*}
\begin {align*}
\mu_{N}=\frac{\lambda \sum_{n=1}^N x_n + \lambda_{\mu}\mu_0}{\lambda_N}
\tag{2.141}
\end {align*}
\begin {align*}
\lambda_N = N\lambda + \lambda_{\mu}
\tag{2.142}
\end {align*}
2.「精度パラメータ$\lambda$のみを学習する場合(平均値$\mu$が既知の時)」
事前分布
\begin {align*}
p(\lambda) = \operatorname{Gam}(\lambda | a_0, b_0)=\frac{1}{\Gamma(a_0)} b_0^{a_0} \lambda^{a_0-1} \exp (-b_0 \lambda)
\tag{2.146}
\end {align*}
事後分布
\begin {align*}
p(\lambda | \mathbf{x}) = \operatorname{Gam}(\lambda | a_N, b_N)
\tag{2.149}
\end {align*}
\begin {align*}
a_{N} &=a_{0}+\frac{N}{2}
\tag{2.150}
\end {align*}
\begin {align*}
b_{N} &=b_{0}+\frac{1}{2} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}
\tag{2.151}
\end {align*}
となっている。
解答2
今回の事後分布は$p(\mu, \lambda | \mathbf{x}) = p(\mu | \lambda, \mathbf{x})p(\lambda | \mathbf{x})$と分解することができる。まず$p(\mu | \lambda, \mathbf{x})$に注目してやるとこれは参考の「1.平均値$\mu$のみを学習する場合(分散$\sigma^2$が既知の時)」における事後分布と同じ形である。そのため(2.138)と今回の事前分布(2.154)を照らし合わせて事後分布を考えると、
\begin {align*}
p(\mu) = \mathcal{N}(\mu | \mu_0, \lambda^{-1}_{\mu})\
\tag{2.138}
\end {align*}
>```math
\begin {align*}
p(\mu, \lambda)=\mathcal{N}\left(\mu | \mu_{0},(\beta \lambda)^{-1}\right) \operatorname{Gam}(\lambda | a, b)
\tag{2.154}
\end {align*}
\begin {align*}
p(\mu | \lambda, \mathbf{x}) = \mathcal{N}(\mu | \hat{\mu}, (\hat{\beta}{\lambda})^{-1})
\tag{ex 2.44.1}
\end {align*}
\begin {align*}
\hat{\mu} &=& \frac{\lambda \sum_{n=1}^N x_n + \beta\lambda\mu_0}{\hat{\beta}\lambda}\\
\hat{\mu} &=& \frac{\sum_{n=1}^N x_n + \beta\mu_0}{\hat{\beta}}
\tag{ex 2.44.2}
\end {align*}
\begin {align*}
\hat{\beta}\lambda &=& N\lambda + \beta\lambda\\
\hat{\beta} &=& N + \beta
\tag{ex 2.44.3}
\end {align*}
という形で事後分布を表すことができる。
次に、$p(\mu, \lambda | \mathbf{x}) = p(\mu | \lambda, \mathbf{x})p(\lambda | \mathbf{x})$における$p(\lambda | \mathbf{x})$に注目してやると、同時分布$p(\mathbf{x}, \mu, \lambda)$は
\begin {align*}
p(\mathbf{x}, \mu, \lambda) &=& p(\mu, | \mathbf{x}, \lambda)p(\lambda | \mathbf{x})p(\mathbf{x})\\
p(\lambda | \mathbf{x}) &\propto& \frac{p(\mathbf{x}| \mu, \lambda)p(\mu, \lambda)}{p(\mu, | \mathbf{x}, \lambda)}
\tag{ex.2.44.4}
\end {align*}
と表すことができる。ここで両辺対数をとってやり、$\lambda$に関する項をまとめてやると、
\begin {align*}
ln~p(\lambda | \mathbf{x}) = (\frac{N}{2} + a - 1)ln~\lambda - \{\frac{1}{2}(\sum_{n = 1}^N x_n^2 + \beta \mu_{0}^2 - \hat{\beta}\hat{\mu}^2) + b\}\lambda + const.
\tag{ex.2.44.5}
\end {align*}
という形に変形することができる。下のガンマ分布の定義式と見比べると
\begin {align*}
ln \operatorname{Gam}(\lambda | a, b)=(a-1) \ln \lambda-b \lambda+\ln C_{\mathrm{G}}(a, b)
\end {align*}
```math
\begin {align*}
p(\lambda | \mathbf{x}) = \operatorname{Gam}(\lambda | \hat{a}, \hat{b})
\tag{ex.2.44.6}
\end {align*}
\begin {align*}
\hat{a} = \frac{N}{2} + a
\tag{ex.2.44.7}
\end {align*}
\begin {align*}
\hat{b} = \frac{1}{2}(\sum_{n = 1}^N x_n^2 + \beta \mu_{0}^2 - \hat{\beta}\hat{\mu}^2) + b
\tag{ex.2.44.8}
\end {align*}
(ex.2.44.1)(ex.2.44.6)より
\begin {align*}
p(\mu, \lambda | \mathbf{x}) = \mathcal{N}(\mu | \hat{\mu}, (\hat{\beta}{\lambda})^{-1}) \operatorname{Gam}(\lambda | \hat{a}, \hat{b})
\tag{2.142}
\end {align*}
となることが証明された。また、事後分布における各パラメータは、
\begin {align*}
\hat{\mu} = \frac{\sum_{n=1}^N x_n + \beta\mu_0}{\hat{\beta}}
\tag{ex 2.44.2}
\end {align*}
\begin {align*}
\hat{\beta} = N + \beta
\tag{ex 2.44.3}
\end {align*}
\begin {align*}
\hat{a} = \frac{N}{2} + a
\tag{ex.2.44.7}
\end {align*}
\begin {align*}
\hat{b} = \frac{1}{2}(\sum_{n = 1}^N x_n^2 + \beta \mu_{0}^2 - \hat{\beta}\hat{\mu}^2) + b
\tag{ex.2.44.8}
\end {align*}
となる。