LoginSignup
0
0

More than 3 years have passed since last update.

PRML 演習問題7.10(標準) 解答

Last updated at Posted at 2020-10-14

はじめに

本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです

今回は演習問題7.10の解説です

問題

(7.84)のwについての積分を実行をして(7.85)が導かれることを示す

p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} \mid \boldsymbol{\alpha}) \mathrm{d} \mathbf{w}\quad(\text { 7.84 })

\begin{aligned}
\ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\
&=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\}\quad(\text { 7.85 })
\end{aligned}
\text { where } \mathbf{t}=\left(t_{1}, \ldots, t_{N}\right)^{\mathrm{T}}, \text { and we have defined the } N \times N \text { matrix } \mathbf{C} \text { given by }
\begin{equation}
\mathbf{C}=\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\quad(\text { 7.86 })
\end{equation}

前提

教科書7.2.1の回帰に対するRVMにおいて、ハイパーパラメータを決定するためにはエビデンス近似を行うことになります。その際に尤度関数を重みパラメータで積分する必要があるので、その計算を自分でやってみるということが今回の趣旨となります。

(2.113)-(2.115)を使うと簡単に求まるのですが、今回は指数に現れる二次式を平方完成する練習として、3.5.1節の手順に沿っていくということになっています

p(\mathbf{t} \mid \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w}\quad(\text { 3.78 })

解答

教科書7.2.1よりデータ行列$X$に対する出力値$t$とした尤度関数は(7.79)で与えられます

p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\prod_{n=1}^{N} p\left(t_{n} \mid \mathbf{x}_{n}, \mathbf{w}, \beta\right)\quad(\text { 7.79 })

重みに対する事前分布は7.80で与えられます

p(\mathbf{w} \mid \boldsymbol{\alpha})=\prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right)\quad(\text { 7.80 })

(7.79)と(7.80)を使って(7.84)を(3.78)と似た形に書き換え、(129)を得ます

p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2} \frac{1}{(2 \pi)^{N / 2}} \prod_{i=1}^{M} \alpha_{i} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w}\quad(\text { 129 })

この時

E(\mathbf{w})=\frac{\beta}{2}\|\mathbf{t}-\boldsymbol{\Phi} \mathbf{w}\|^{2}+\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}
\mathbf{A}=\operatorname{diag}(\boldsymbol{\alpha})

です
wについて平方完成すると

E(\mathbf{w})=\frac{1}{2}(\mathbf{w}-\mathbf{m})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{w}-\mathbf{m})+E(\mathbf{t})\quad(\text { 130 })

ここで$m$と$\Sigma$は(7.82)と(7.83)で定義されます。

\begin{aligned}
\mathbf{m} &=\beta \mathbf{\Sigma} \Phi^{\mathrm{T}} \mathbf{t}\quad(\text { 7.82 }) \\
\mathbf{\Sigma} &=\left(\mathbf{A}+\beta \Phi^{\mathrm{T}} \Phi\right)^{-1}\quad(\text { 7.83 })
\end{aligned}

そして(130)の$E(\mathbf{t})$は(131)で与えられます。

E(\mathbf{t})=\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{m}\right)\quad(\text { 131 })

(130)を用いて(129)のインテグラルを計算し(132)を得ます。

\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w}=\exp \{-E(\mathbf{t})\}(2 \pi)^{M / 2}|\mathbf{\Sigma}|^{1 / 2}\quad(\text { 132 })

これをtの関数として見做すことで

\exp \{-E(\mathbf{t})\}

を処理すれば良いことになります。

(7.82),(7.83),(C.7),(7.86)を用いることで(131)は以下のように変形できます

\left(\mathbf{A}+\mathbf{B} \mathbf{D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1}\quad(\text { C.7 })
\begin{aligned}
E(\mathbf{t}) &=\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{m}\right) \\
&=\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\beta \mathbf{t}^{\mathrm{T}} \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Sigma}^{-1} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \beta\right) \\
&=\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\
&=\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \boldsymbol{\Phi}\left(\mathbf{A}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right)^{-1} \boldsymbol{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\
&=\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right)^{-1} \mathbf{t} \\
&=\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}
\end{aligned}

これは7.85の右辺の最後の項を与えています。他の二つの項は事後分布$p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)$の正規化定数を与えるために暗黙に決定されます

よって題意は示されました。

参考
PRML公式解答(Solutions to Exercises Web-Edition)

0
0
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0