More than 3 years have passed since last update.

PRML 演習問題 1.4 解答

PRML

Last updated at 2021-12-03Posted at 2021-10-29

はじめに

本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning （パターン認識と機械学習）』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです. これは, 私の所属する生物測定学研究室の輪読会でPRMLを取り扱っており, その勉強の一環として演習問題を解いたときのものです. なお, 他の演習問題の解答例に関する記事については, PRML　演習問題　解答集　まとめをご覧ください.

問題

連続変数 $x$ 上で定義された確率密度 $p_x(x)$ を考える. $x = g(y)$ により非線形変換を施すと密度は(1.27)の変換を受ける. (1.27)を微分して $y$ に関する密度を最大にする位置 $\hat{y}$ と $x$ に関する密度を最大にする位置 $\hat{x}$ とが, ヤコビ因子の影響により一般には単純な $\hat{x} = g(\hat{y})$ という関係にないということを示せ. これは確率密度の最大値が, (通常の関数と異なり)変数の選択に依存することを示している. 線形変換の場合には最大値の位置が変数自身と同じ変換を受けることを確かめよ.

方針

素直に問題文に従って, (1.27)を微分して $y$ に関する密度を最大にする位置 $\hat{y}$ と $x$ に関する密度を最大にする位置 $\hat{x}$ とが, ヤコビ因子の影響により一般には単純な $\hat{x} = g(\hat{y})$ という関係にないということを示す.

解法

\begin{align}
p_y(y) &= p_x(x)\left| \frac{dx}{dy} \right| \\
&= p_x(g(y))\left| g'(y) \right|
\tag{1.27}
\end{align}

まず、両辺を $y$ に関して微分する。

\frac{d}{dy} p_y(y) = \frac{dp_x(g(y))}{dy} 
\cdot \frac{dg(y)}{dy} 
\cdot \left| \frac{dg(y)}{dy} \right|
+
p_x(g(y))\cdot\frac{d}{dy} \left| \frac{dg(y)}{dy} \right|

$\frac{d}{dx}p_x(x) = 0$ を満たす $x = \hat{x}$ を代入すると、

\begin{align*}
\frac{d}{dy}p_y(y) 
&= 
\frac{dp_x(\hat{x})}{dy} 
\cdot \frac{d\hat{x}}{dy} \left| \frac{d\hat{x}}{dy} \right|
+
p_x(\hat{x}) \cdot \frac{d}{dy} \left| \frac{d\hat{x}}{dy} \right| \\
&=
\frac{dp_x(\hat{x})}{dx} \frac{dx}{dy} \frac{d\hat{x}}{dy} \left| \frac{d\hat{x}}{dy} \right|
+
p_x(\hat{x})\frac{d}{dy}\left|\frac{d\hat{x}}{dy}\right| \\
&=
p_x(\hat{x})\frac{d}{dy}\left|\frac{d\hat{x}}{dy}\right|
\end{align*}

となり、0になるとは限らない。よって $\hat{x} = g(\hat{y})$ は成り立たない。

一方で、 $x = g(y)$ が線形変換であるならば、

\frac{d}{dy}\left|\frac{dg(y)}{dy}\right| = 0

よって、 $\hat{x} = g(\hat{y})$ が成り立つ。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up