##はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです
##問題
(7.84)のwについての積分を実行をして(7.85)が導かれることを示す
p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} \mid \boldsymbol{\alpha}) \mathrm{d} \mathbf{w}\quad(\text { 7.84 })
\begin{aligned}
\ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\
&=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\}\quad(\text { 7.85 })
\end{aligned}
\text { where } \mathbf{t}=\left(t_{1}, \ldots, t_{N}\right)^{\mathrm{T}}, \text { and we have defined the } N \times N \text { matrix } \mathbf{C} \text { given by }
\begin{equation}
\mathbf{C}=\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\quad(\text { 7.86 })
\end{equation}
##前提
教科書7.2.1の回帰に対するRVMにおいて、ハイパーパラメータを決定するためにはエビデンス近似を行うことになります。その際に尤度関数を重みパラメータで積分する必要があるので、その計算を自分でやってみるということが今回の趣旨となります。
(2.113)-(2.115)を使うと簡単に求まるのですが、今回は指数に現れる二次式を平方完成する練習として、3.5.1節の手順に沿っていくということになっています
p(\mathbf{t} \mid \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w}\quad(\text { 3.78 })
##解答
教科書7.2.1よりデータ行列$X$に対する出力値$t$とした尤度関数は(7.79)で与えられます
p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\prod_{n=1}^{N} p\left(t_{n} \mid \mathbf{x}_{n}, \mathbf{w}, \beta\right)\quad(\text { 7.79 })
重みに対する事前分布は7.80で与えられます
p(\mathbf{w} \mid \boldsymbol{\alpha})=\prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right)\quad(\text { 7.80 })
(7.79)と(7.80)を使って(7.84)を(3.78)と似た形に書き換え、(129)を得ます
p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2} \frac{1}{(2 \pi)^{N / 2}} \prod_{i=1}^{M} \alpha_{i} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w}\quad(\text { 129 })
この時
E(\mathbf{w})=\frac{\beta}{2}\|\mathbf{t}-\boldsymbol{\Phi} \mathbf{w}\|^{2}+\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}
\mathbf{A}=\operatorname{diag}(\boldsymbol{\alpha})
です
wについて平方完成すると
E(\mathbf{w})=\frac{1}{2}(\mathbf{w}-\mathbf{m})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{w}-\mathbf{m})+E(\mathbf{t})\quad(\text { 130 })
ここで$m$と$\Sigma$は(7.82)と(7.83)で定義されます。
\begin{aligned}
\mathbf{m} &=\beta \mathbf{\Sigma} \Phi^{\mathrm{T}} \mathbf{t}\quad(\text { 7.82 }) \\
\mathbf{\Sigma} &=\left(\mathbf{A}+\beta \Phi^{\mathrm{T}} \Phi\right)^{-1}\quad(\text { 7.83 })
\end{aligned}
そして(130)の$E(\mathbf{t})$は(131)で与えられます。
E(\mathbf{t})=\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{m}\right)\quad(\text { 131 })
(130)を用いて(129)のインテグラルを計算し(132)を得ます。
\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w}=\exp \{-E(\mathbf{t})\}(2 \pi)^{M / 2}|\mathbf{\Sigma}|^{1 / 2}\quad(\text { 132 })
これをtの関数として見做すことで
\exp \{-E(\mathbf{t})\}
を処理すれば良いことになります。
(7.82),(7.83),(C.7),(7.86)を用いることで(131)は以下のように変形できます
\left(\mathbf{A}+\mathbf{B} \mathbf{D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1}\quad(\text { C.7 })
\begin{aligned}
E(\mathbf{t}) &=\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{m}\right) \\
&=\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\beta \mathbf{t}^{\mathrm{T}} \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Sigma}^{-1} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \beta\right) \\
&=\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\
&=\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \boldsymbol{\Phi}\left(\mathbf{A}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right)^{-1} \boldsymbol{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\
&=\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right)^{-1} \mathbf{t} \\
&=\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}
\end{aligned}
これは7.85の右辺の最後の項を与えています。他の二つの項は事後分布$p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)$の正規化定数を与えるために暗黙に決定されます
よって題意は示されました。