##はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです. これは, 私の所属する生物測定学研究室の輪読会でPRMLを取り扱っており, その勉強の一環として演習問題を解いたときのものです. なお, 他の演習問題の解答例に関する記事については, PRML 演習問題 解答集 まとめをご覧ください.
問題
連続変数 $x$ 上で定義された確率密度 $p_x(x)$ を考える. $x = g(y)$ により非線形変換を施すと密度は(1.27)の変換を受ける. (1.27)を微分して $y$ に関する密度を最大にする位置 $\hat{y}$ と $x$ に関する密度を最大にする位置 $\hat{x}$ とが, ヤコビ因子の影響により一般には単純な $\hat{x} = g(\hat{y})$ という関係にないということを示せ. これは確率密度の最大値が, (通常の関数と異なり)変数の選択に依存することを示している. 線形変換の場合には最大値の位置が変数自身と同じ変換を受けることを確かめよ.
方針
素直に問題文に従って, (1.27)を微分して $y$ に関する密度を最大にする位置 $\hat{y}$ と $x$ に関する密度を最大にする位置 $\hat{x}$ とが, ヤコビ因子の影響により一般には単純な $\hat{x} = g(\hat{y})$ という関係にないということを示す.
解法
\begin{align}
p_y(y) &= p_x(x)\left| \frac{dx}{dy} \right| \\
&= p_x(g(y))\left| g'(y) \right|
\tag{1.27}
\end{align}
まず、両辺を $y$ に関して微分する。
\frac{d}{dy} p_y(y) = \frac{dp_x(g(y))}{dy}
\cdot \frac{dg(y)}{dy}
\cdot \left| \frac{dg(y)}{dy} \right|
+
p_x(g(y))\cdot\frac{d}{dy} \left| \frac{dg(y)}{dy} \right|
$\frac{d}{dx}p_x(x) = 0$ を満たす $x = \hat{x}$ を代入すると、
\begin{align*}
\frac{d}{dy}p_y(y)
&=
\frac{dp_x(\hat{x})}{dy}
\cdot \frac{d\hat{x}}{dy} \left| \frac{d\hat{x}}{dy} \right|
+
p_x(\hat{x}) \cdot \frac{d}{dy} \left| \frac{d\hat{x}}{dy} \right| \\
&=
\frac{dp_x(\hat{x})}{dx} \frac{dx}{dy} \frac{d\hat{x}}{dy} \left| \frac{d\hat{x}}{dy} \right|
+
p_x(\hat{x})\frac{d}{dy}\left|\frac{d\hat{x}}{dy}\right| \\
&=
p_x(\hat{x})\frac{d}{dy}\left|\frac{d\hat{x}}{dy}\right|
\end{align*}
となり、0になるとは限らない。よって $\hat{x} = g(\hat{y})$ は成り立たない。
一方で、 $x = g(y)$ が線形変換であるならば、
\frac{d}{dy}\left|\frac{dg(y)}{dy}\right| = 0
よって、 $\hat{x} = g(\hat{y})$ が成り立つ。