はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題の解答を記したものです. これは, 生物測定学研究室の輪読会でPRMLを取り扱っており, その勉強の一環として演習問題を解いたときのもので, 匿名の有志の学生による解答をこちらのアカウントから代わりに投稿させていただいています. (なお一部数式の表現などを修正してあります.)
問題
3.17 ベイズ線形回帰モデルに対するエビデンス関数が$(3.78)$に変形できることを示せ.
ただし、$E(\mathbf{w})$は$(3.79)$で定義される.
参考
$(3.78)$(エビデンス関数)は
ベイズ線形回帰のエビデンス関数は \\
\begin {align*}
p(\mathbf{t}|\alpha,\beta) =
\left(
\frac{\beta}{2\pi}
\right)^{N / 2}
\left(
\frac{\alpha}{2\pi}
\right)^{M / 2}
\int\rm{exp}
\{-E(\mathbf{w})\}
d \mathbf{w}
\tag{3.78} \\
\end {align*}
であり、
$(3.79)$の式${E(\mathbf{w})}$は
また、Nを入力の次元数、M((1.52)ではD)をパラメータの次元数とすると、\\
\begin {align*}
E(\mathbf{w}) = \beta{E}_D(\mathbf{w}) + \alpha{E}_W(\mathbf{w}) \\
= \frac{\beta}{2}||\mathbf{t} - \Phi\mathbf{w}||^2 +
\frac{\alpha}{2}\mathbf{w}^\mathbf{T}\mathbf{w} \ \tag{3.79}
\end {align*}
である。
解法
165ページにそのまま解法が書かれています。
素直に(3.11)、(3.12)、(3.52)と、多変量ガウス分布の式である
\begin {align*}
{\it N}(\mathbf {x} | \boldsymbol {\mu},\boldsymbol {\Sigma}) &=
\frac{1}{(2\pi)^{M/2}} \frac{1}{|\boldsymbol {\Sigma}|^{1/2}}
\rm{exp}\left\{-\frac{1}{2}(\mathbf {x} - \boldsymbol {\mu} )^ \mathrm { T }\boldsymbol {\Sigma}^{-1}(\mathbf {x} - \boldsymbol {\mu} )\right\} \\
\tag{1.52}
\end {align*}
をそのまま使います。
まず、$(3.77)$よりベイズ線形回帰のエビデンス関数は
\begin {align*}
p(\mathbf{t}|\alpha,\beta) = \int
p(\mathbf{t}|\mathbf{w},\beta)
p(\mathbf{w}|\alpha)
\rm{d}\mathbf{w}
\tag{3.77}
\end {align*}
であるため、$p(\mathbf{t}|\mathbf{w},\beta)$には$(3.11)$を、
\begin {align*}
\it{p}\left (\mathbf{t}|\mathbf{w},\beta\right ) = \rm{exp}\left (\rm{ln}\it{p}\left (\mathbf{t}|\mathbf{w},\beta\right ) \right )
&= \rm{exp}\left (\sum_{n = 1}^N\rm{ln}\it{N}\left ({t_n} | \mathbf{w}^\rm{T}\phi\left (\mathbf{x}_n\right ),\beta\right ) \right )\\
&= \rm{exp}\left (\frac{N}{2}\rm{ln}{\frac{\beta}{2\pi}} - \beta{E}_D\left (\mathbf{w}\right )\right ) \\
&= \left (\frac{\beta}{2\pi}\right )^{N/2} -\rm{exp}\{\beta{E}_D\left (\mathbf{w}\right )\}
\tag{3.11改変}
\end {align*} \\
ただし\mathbf{x}は省略されるため、 \\
\begin {align*}
E_D\left (\mathbf{w}\right ) &= \frac{1}{2}\sum_{n=1}^{N}\{t_n - \mathbf{w}^{\mathbf{T}}\phi\left (\mathbf{x}_n\right )\}^2 \\
&= \frac{1}{2} ||\mathbf{t} - \boldsymbol{\Phi}\mathbf{w}||^2
\tag{3.12改変}
\end {align*} \\
$p\left (\mathbf{w}|\alpha\right )$には${\alpha}^{-1}\mathbf{I}$の絶対値が${\alpha}^{-M}$であることにより、
\begin {align*}
p\left (\mathbf{w}|\alpha\right ) &=
{\it N}\left (\mathbf {w} | \boldsymbol {0},\boldsymbol {{\alpha}^{-1}\mathbf{I}}\right ) \\
&= \frac{1}{\left (2\pi\right )^{M/2}} \frac{1}{|\alpha^{-1}\mathbf{I}|^{1/2}}
\rm{exp}\left\{-\frac{1}{2}\mathbf {w}^ \mathrm { T }
\left (\alpha^{-1}\mathbf{I}\right )^{-1}
\mathbf {w}\right\} \\
&= \left (\frac{\alpha}{2\pi}\right )^{M/2}\rm{exp}\left (-\frac{\alpha}{2}\mathbf {w}^ \mathrm { T }\mathbf {w}\right )
&\tag{1.52改変}
\end {align*}
をそれぞれ代入すると、$\mathbf{x}$は省略されているため、
\begin {align*}
p\left (\mathbf{t}|\alpha,\beta\right ) &= \int
p\left (\mathbf{t}|\mathbf{w},\beta\right )
p\left (\mathbf{w}|\alpha\right )\rm{d}\mathbf{w} \\
&= \int
\left\{\left (\frac{\beta}{2\pi}\right )^{N/2} -\rm{exp}\{\beta{E}_D\left (\mathbf{w}\right )\}\}
\left (\frac{\alpha}{2\pi}\right )^{M/2}\rm{exp}\{\left (-\frac{\alpha}{2}\mathbf {w}^ \mathrm { T }\mathbf {w}\right )\right\}
\rm{d}\mathbf{w} \\
&= \left (\frac{\beta}{2\pi}\right )^{N/2}\left (\frac{\alpha}{2\pi}\right )^{M/2}
\int \rm{exp}\left\{\frac{\beta}{2} ||\mathbf{t} - \boldsymbol{\Phi}\mathbf{w}||^2\ + \frac{\alpha}{2}\mathbf{w}^{\mathbf{T}}\mathbf{w}\right\}\rm{d}\mathbf{w} \\
&= \left (\frac{\beta}{2\pi}\right )^{N/2}\left (\frac{\alpha}{2\pi}\right )^{M/2}
\int
\rm{exp}\{-E\left (\mathbf{w}\right )\}
\rm{d}\mathbf{w}
\end {align*}