はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです. これは, 私の所属する生物測定学研究室の輪読会でPRMLを取り扱っており, その勉強の一環として演習問題を解いたときのものです. なお, 他の演習問題の解答例に関する記事については, PRML 演習問題 解答集 まとめをご覧ください.
問題
$$
\begin{align*}
p(\mathbf y)= \mathcal { N } \left (\mathbf y ~ | ~\mathbf A \boldsymbol \mu + \mathbf b, ~ \mathbf L^{-1} + \mathbf A \boldsymbol \Lambda^{-1} \mathbf A ^ \textrm { T } \right)
\tag{2.115}
\end{align*}
$$
の結果を用いて,
$$
\begin{align*}
p \left (t ~ | ~ \mathbf t,\alpha,\beta \right ) = \int p \left (t ~ | ~ \mathbf w,\beta \right ) p \left (\mathbf w ~ | ~ \mathbf t,\alpha,\beta \right )\textrm d\mathbf w
\tag{3.57}
\end{align*}
$$
の積分を評価し, ベイズ線形回帰モデルの予測分布が
$$
\begin{align*}
p \left (t ~ | ~ \mathbf x,\mathbf t,\alpha,\beta \right ) = \mathcal { N } \left (t ~ | ~ \mathbf m^\textrm T_N \boldsymbol \phi (\mathbf x),\sigma ^2_N (\mathbf x) \right )
\tag{3.58}
\end{align*}
$$
で与えられることを確かめよ. ただし, 入力に依存する分散は,
$$
\begin{align*}
\sigma ^2_N (\mathbf x) = \frac{1}{\beta}+\boldsymbol \phi (\mathbf x)^\textrm T \mathbf S_N \boldsymbol \phi (\mathbf x)
\tag{3.59}
\end{align*}
$$
で与えられる.
解答
(3.57)の条件付き分布と事後分布は, それぞれ以下の式で表されます.
\begin{align*}
p \left (t ~ | ~ \mathbf w,\beta \right ) = \mathcal { N } \left (t ~ | ~ \mathbf w^\textrm T \boldsymbol \phi (\mathbf x),\beta^{-1} \right )
\tag{3.3, 3.8}
\end{align*}
\begin{align*}
p \left (\mathbf w ~ | ~ \mathbf t,\alpha,\beta \right ) = \mathcal { N } \left (\mathbf w ~ | ~ \mathbf m _ N,\mathbf S_N \right )
\tag{3.49}
\end{align*}
ここで, (2.115)の式は,
\begin{align*}
p \left (\mathbf x \right ) = \mathcal { N } \left (\mathbf { x } ~ | ~ \boldsymbol \mu ,\boldsymbol \Lambda^{-1} \right )
\tag{2.113}
\end{align*}
\begin{align*}
p \left (\mathbf y ~ | ~ \mathbf x \right ) = \mathcal { N } \left (\mathbf y ~ | ~ \mathbf A \mathbf x + \mathbf b,\mathbf L^{-1} \right )
\tag{2.114}
\end{align*}
が与えられた際の周辺分布だったことに注意して, (2.113)から(2.115)について,
\begin{align*}
\mathbf y \rightarrow \textit t, \quad \mathbf x \rightarrow \mathbf w, \quad \boldsymbol \mu \rightarrow \mathbf m_N, \quad \boldsymbol \Lambda^{-1} \rightarrow \mathbf S_N,\quad \mathbf A \rightarrow \boldsymbol \phi (\mathbf x)^\textrm T,\quad \mathbf L^{-1}→\beta^{-1}
\end{align*}
と置き換えると, (3.57)を評価できます.
したがって, (2.115)にそれぞれを代入すると,
\begin{align*}
p \left (t ~ | ~ \mathbf x,\mathbf t,\alpha,\beta \right ) = \mathcal { N } \left (t ~ | ~ \mathbf m^\textrm T_N \boldsymbol \phi (\mathbf x),\sigma ^2_N (\mathbf x) \right )
\tag{3.58}
\end{align*}
と求まります.
ここで, 入力に依存する分散は,
\begin{align*}
\sigma ^ 2 _ N (\mathbf x) = \frac{1}{\beta}+\boldsymbol \phi (\mathbf x)^\textrm T \mathbf S_N \boldsymbol \phi (\mathbf x)
\tag{3.59}
\end{align*}
です.