はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです. これは, 私の所属する生物測定学研究室の輪読会でPRMLを取り扱っており, その勉強の一環として演習問題を解いたときのものです. なお, 他の演習問題の解答例に関する記事については, PRML 演習問題 解答集 まとめをご覧ください.
問題
テイラー展開をすることにより,
$$
\begin {align*}
\frac { \partial E _ { n } } { \partial w _ { j i } } = \frac { E _ { n } \left( w _ { j i } + \epsilon \right) - E _ { n } \left( w _ { j i } - \epsilon \right) } { 2 \epsilon } + O \left( \epsilon ^ { 2 } \right)
\tag {5.69}
\end{align*}
$$
の右辺において $O \left ( \epsilon \right )$ である項は消えることを確かめよ.
解答の指針
問題分にある通り, 素直にテイラー展開をしてやればいいですね.
念のため, テイラー展開を復習しておくと, 関数 $f$ の $x = a$ 周りのテイラー展開は,
\begin {align*}
f \left ( x \right ) = \sum _ { n = 0 } ^ { \infty } \frac { f ^ { ( n ) } ( a ) } { n ! } ( x - a ) ^ { n }
\tag{5.14.1}
\end{align*}
のように表せます. なお, $f ^ { ( n ) }$ は関数 $f$ の $n$ 階微分です.
したがって, 二次までの近似の場合は,
\begin {align*}
f \left ( x \right ) = f ( a ) + f ^ { ( 1 ) } ( a ) ( x - a ) +
\frac { f ^ { ( 2 ) } ( a ) } { 2 } ( x - a ) ^ { 2 } + O \left ( ( x - a ) ^ 3 \right )
\tag{5.14.2}
\end{align*}
のように近似することができます.
証明
さて, $(5.14.2)$ を利用して, $E _ { n } \left( w _ { j i } + \epsilon \right)$, $E _ { n } \left( w _ { j i } - \epsilon \right)$ を, それぞれ以下のように $w _ { j i }$ 周りでテイラー展開してみましょう.
\begin {align*}
E _ { n } \left( w _ { j i } + \epsilon \right) & =
E _ { n } \left( w _ { j i } \right) +
\epsilon E ^ { ' } _ { n } \left( w _ { j i } \right) +
\frac { \epsilon ^ { 2 } } { 2 } E ^ { ' ' } _ { n } \left( w _ { j i } \right) + O \left ( \epsilon ^ { 3 } \right ),
\tag{5.14.3}
\end{align*}
\begin {align*}
E _ { n } \left( w _ { j i } - \epsilon \right) & =
E _ { n } \left( w _ { j i } \right) -
\epsilon E ^ { ' } _ { n } \left( w _ { j i } \right) +
\frac { \epsilon ^ { 2 } } { 2 } E ^ { ' ' } _ { n } \left( w _ { j i } \right) + O \left ( \epsilon ^ { 3 } \right ).
\tag{5.14.4}
\end{align*}
ここで, $E ^ { ' } _ { n } = \frac { \partial E _ { n } } { \partial w _ { j i } }$, $E ^ { ' ' } _ { n } = \frac { \partial ^ { 2 } E _ { n } } { \partial w _ { j i } ^ { 2 } }$ のように, それぞれ1階微分, 2階微分を定義しました.
$(5.14.3)$, $(5.14.4)$ 式より,
\begin {align*}
E _ { n } \left( w _ { j i } + \epsilon \right) - E _ { n } \left( w _ { j i } - \epsilon \right) = 2 \epsilon E ^ { ' } _ { n } \left( w _ { j i } \right) + O \left ( \epsilon ^ { 3 } \right )
\tag{5.14.4}
\end{align*}
であるので, $E ^ { ' } _ { n }$ に関して解けば,
\begin {align*}
\frac { \partial E _ { n } } { \partial w _ { j i } } = \frac { E _ { n } \left( w _ { j i } + \epsilon \right) - E _ { n } \left( w _ { j i } - \epsilon \right) } { 2 \epsilon } + O \left( \epsilon ^ { 2 } \right)
\tag {5.69}
\end{align*}
と求めることができます. このように, 結果として $O \left ( \epsilon \right )$ である項は消えることになりますね.