はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです. これは, 私の所属する生物測定学研究室の輪読会でPRMLを取り扱っており, その勉強の一環として演習問題を解いたときのものです. なお, 他の演習問題の解答例に関する記事については, PRML 演習問題 解答集 まとめをご覧ください.
問題
複数の出力を持つニューラルネットワークについて, 条件付き分布
$$
p\left ( \mathbf t ~ | ~ \mathbf x, \mathbf w \right )= N\left ( \mathbf t ~ | ~ \mathbf y\left ( \mathbf x, \mathbf w \right ), ~ \beta^{-1} \mathbf I \right )
\tag{5.16}
$$
の尤度関数最大化は, 二乗和誤差関数
$$
E\left ( \mathbf w \right ) = \frac{1}{2} \sum_{n=1}^{N} \left | \left |\mathbf y\left ( \mathbf x _ { n }, \mathbf w \right )-\mathbf t_n \right | \right |^2
\tag{5.11}
$$
の 最小化(問題文では最大化となっているがおそらく誤植) と等価であることを示せ。
解答
$\left ( 5.16 \right )$ で与えられる条件付き確率分布における尤度は, 以下の式で表される。
$$
\prod_{n=1}^{N} N\left ( \mathbf t_n ~ | ~ \mathbf y\left ( \mathbf x_n, \mathbf w \right ), ~ \beta^{-1} \mathbf I \right )
\tag{5.2.1}
$$
ここで $\left ( 5.2.1 \right )$ を最大化することは, 当然 $\left ( 5.2.1 \right )$ に対数を取ったものを最大化することと等価であるため, $\left ( 5.2.1 \right )$ の対数を取ることを考える。
すると、
$$
\frac{NK}{2} \ln \left ( \frac{\beta}{2 \pi} \right )-\frac{\beta}{2} \sum_{n=1}^{N} \left | \left |\mathbf y\left ( \mathbf x _ { n }, \mathbf w \right )-\mathbf t_n \right | \right |^2
\tag{5.2.2}
$$
$\mathbf w$ に関して尤度を最大化することを考えると, $\left ( 5.2.2 \right )$ の第1項は無視でき, $\left ( 5.2.2 \right )$ の第2項を最大化することと等価となる。
これは, 二乗和誤差関数 $\left ( 5.11 \right )$ を最小化すること等価であるため, 題意は示された。$\left ( 証明終 \right )$
※問題文では $\mathbf w$ に関しての最大化と明言されていないが, そうでなければ問題が成り立たないため, $\mathbf w$ に関しての最大化と考えるのが妥当であろう。