はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです. これは, 私の所属する生物測定学研究室の輪読会でPRMLを取り扱っており, その勉強の一環として演習問題を解いたときのものです. なお, 他の演習問題の解答例に関する記事については, PRML 演習問題 解答集 まとめをご覧ください.
問題
ガウス分布(1.46)のモード(つまり分布が最大となる $x$ の値)が $\mu$ で与えられることを示せ。
同様に、多変量ガウス分布(1.52)のモードは $\mu$ で与えられることを示せ。
解答
問題からわかるように,以下の2問に分けて解いていきます。
問題1.9.1
ガウス分布(1.46)のモード(つまり分布が最大となる $x$ の値)が $\mu$ で与えられることを示せ。
方針
(1.46)式を $x$ で微分し、これが $0$ の時に分布が最大となる。
その時の $x$ が $\mu$ であることを示せばよい。
証明
まず、ガウス分布(1.46)は
\begin {align*}
N ( { x | \mu , \sigma^2} ) = \frac { 1 } { (2 \pi \sigma^2) ^ \frac {1}{2} } \exp \left\{-\frac{1}{2\sigma^ 2}(x-\mu)^ 2\right\}
\tag{1.46}
\end{align*}
である。
$x$ で微分し、これが $0$ の時を考える。
\begin {align*}
\frac {d}{dx}N ( { x | \mu , \sigma^2} ) & = N ( { x | \mu , \sigma^2} ) \frac {d}{dx} \left\{ -\frac{1}{2\sigma^ 2}(x-\mu)^ 2\right\}
\\& = N ( { x | \mu , \sigma^2} ) \left\{ -\frac{x-\mu}{\sigma^2} \right\}
\\& = 0
\end{align*}
したがって,ガウス分布(1.46)のモードが $\mu$ で与えられる。
問題1.9.2
多変量ガウス分布(1.52)のモードは $\mu$ で与えられることを示せ。
方針
問題1.9.1 と同様に、(1.52)式をベクトル $\mathbf x$ で微分する。
準備
$\mathbf x $ を $ n×1 $ ベクトル、$\mathbf A $ を $ n×n $ 対称行列とするとき、
\frac{\partial}{\partial \mathbf{x}}\left(\mathbf{x}^{T} \mathbf{A} \mathbf{x}\right)=2 \mathbf{A} \mathbf{x}
を用いる。
解答
まず、多変量ガウス分布(1.52)は
\begin {align*}
\mathcal{N} ( { \mathbf {x} | \boldsymbol{\mu} , \boldsymbol{\Sigma}^2} ) & = \frac {1}{(2\pi)^\frac {D}{2}} \frac {1}{|\boldsymbol{\Sigma}|^\frac{1}{2}} \exp \left\{ -\frac{1}{2}(\mathbf x-\boldsymbol{\mu})^ \mathbf T \boldsymbol{\Sigma} ^{-1}(\mathbf x -\boldsymbol{\mu}) \right\}
\tag{1.52}
\end{align*}
である。
\begin{aligned}
\frac{\partial}{\partial \mathbf{x}} \mathcal{N} ( { \mathbf x | \mu , \Sigma^2} )
&=\frac{1}{(2 \pi)^{\frac{D}{2}}|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \cdot \frac{\partial}{\partial \mathbf{x}} \exp \left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right) \\
&=\frac{1}{(2 \pi)^{\frac{D}{2}}|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \cdot \frac{\partial \mathbf{z}}{\partial \mathbf{x}} \cdot \frac{\partial}{\partial \mathbf{z}} \exp \left(-\frac{1}{2} \mathbf{z}^{T} \boldsymbol{\Sigma}^{-1} \mathbf{z}\right) \quad(\mathbf{z}:=\mathbf{x}-\boldsymbol{\mu}) \\
&=\frac{1}{(2 \pi)^{\frac{D}{2}}|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \cdot \mathbf{I} \cdot \frac{\partial}{\partial \mathbf{z}} \exp \left(-\frac{1}{2} \mathbf{z}^{T} \boldsymbol{\Sigma}^{-1} \mathbf{z}\right) \\
&=\frac{1}{(2 \pi)^{\frac{D}{2}}|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \cdot \mathbf{I} \cdot\left\{\exp \left(-\frac{1}{2} \mathbf{z}^{T} \boldsymbol{\Sigma}^{-1} \mathbf{z}\right) -\frac{1}{2}( 2 \boldsymbol{\Sigma}^{-1} \mathbf{z})\right\} \\
&=\frac{1}{(2 \pi)^{\frac{D}{2}}|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \cdot \mathbf{I} \cdot\left\{-\exp \left(-\frac{1}{2} \mathbf{z}^{T} \boldsymbol{\Sigma}^{-1} \mathbf{z}\right) \boldsymbol{\Sigma}^{-1} \mathbf{z}\right\} \\
&=-\frac{1}{(2 \pi)^{\frac{D}{2}}|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) \\
&=-\mathcal{N} ( { \mathbf x | \mu , \Sigma^2} ) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})
\end{aligned}
したがって, 多変量ガウス分布(1.52)のモードは $\mu$ で与えられる。
参考文献
更新歴
- 2024.12.30 : 本記事の体裁を整えました.
- 2021.12.3 : タグに「ガウス分布」「多変量ガウス分布」を追加しました。
- 2021.11.16 : 本記事を投稿しました。