はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題の解答を記したものです. これは, 生物測定学研究室の輪読会でPRMLを取り扱っており, その勉強の一環として演習問題を解いたときのもので, 匿名の有志の学生による解答をこちらのアカウントから代わりに投稿させていただいています. (なお一部数式の表現などを修正してあります.)
問題
2.57 多変量ガウス分布は, 指数型分布族の形式 $(2.194)$ に変形できることを示し, $(2.220)-(2.223)$ と同様に, $\boldsymbol {\eta}$, $\mathbf {u}(\mathbf {x})$, $h(\mathbf {x})$, および$g(\boldsymbol {\eta})$の式を導出せよ.
参考
D次元の多変量ガウス分布の式は
\begin {align*}
{\it N}(\mathbf {x} | \boldsymbol {\mu},\boldsymbol {\Sigma}) &= \frac{1}{(2\pi)^{D/2}} \frac{1}{|\boldsymbol {\Sigma}|^{1/2}}\rm{exp}\left\{-\frac{1}{2}(\mathbf {x} - \boldsymbol {\mu} )\boldsymbol {\Sigma}^{-1}(\mathbf {x} - \boldsymbol {\mu} )^ \mathrm { T }\right\}
\tag{2.43} \\
\end {align*}
である。
ただし$\boldsymbol {\mu}$は${\it D}$次元の平均ベクトル、$\boldsymbol {\Sigma}$は${\it D}\times{\it D}$の共分散行列 である。
また、$\mathbf {x}$上の指数型分布族は、$\boldsymbol {\eta}$をパラメータとし、
\begin {align*}
{\it p}(\mathbf {x} | \boldsymbol {\eta}) &= h(\mathbf {x})g(\boldsymbol{\eta})\rm{exp}\left\{\boldsymbol {\eta}^ \mathrm {T}\mathbf{u}(\mathbf{x}) \right\}
\tag{2.194} \\
\end {align*}
と定義される。($\boldsymbol{\eta}$は自然パラメータと呼ばれる。)
また、$g(\boldsymbol{\eta})$は正規化係数であるため、
\begin {align*}
g(\boldsymbol{\eta})\int h(\mathbf {x})\rm{exp}\left\{\boldsymbol {\eta}^ \mathrm {T}\mathbf{u}(\mathbf{x}) \right\}\rm{d}\mathbf {x} &= 1
\tag{2.195} \\
\end {align*}
である。
解法
多変量ガウス分布は指数を含んだ関数の形になっているため、指数内部の形を変形していまいましょう。
また、$\mathbf {x}^\mathrm {T}\boldsymbol {\Sigma}^{-1}\boldsymbol{\mu}=\boldsymbol{\mu}^\mathrm {T}\boldsymbol {\Sigma}^{-1}\mathbf {x}$を利用する。
共分散行列は対称行列であることも利用すると、どちらも(1,D) x (D,D) x (D,1) = (1,1)のスカラーになることが分かるためである。
そのため(2.71)の式をある程度活用して$\mathbf{x}$を含む項をくくりだすと、
\begin {align*}
{\it N}(\mathbf {x} | \boldsymbol {\mu},\boldsymbol {\Sigma}) &=
\frac{1}{(2\pi)^{D/2}} \frac{1}{|\boldsymbol {\Sigma}|^{1/2}}
\rm{exp}\left\{-\frac{1}{2}(\mathbf {x} - \boldsymbol {\mu} )\boldsymbol {\Sigma}^{-1}(\mathbf {x} - \boldsymbol {\mu} )^ \mathrm { T }\right\}\\
&= \frac{1}{(2\pi)^{D/2}} \frac{1}{|\boldsymbol {\Sigma}|^{1/2}}
\rm{exp}\left\{-\frac{1}{2} \boldsymbol {\mu}\boldsymbol {\Sigma}^{-1} \boldsymbol {\mu}^ \mathrm { T }\right\}
\rm{exp}\left\{-\frac{1}{2}\mathbf {x}^ \mathrm { T } \boldsymbol{\Sigma}^{-1}\mathbf {x}
+\mathbf {x}^ \mathrm { T }\boldsymbol {\Sigma}^{-1}\boldsymbol{\mu} \right\}
\end {align*}
正規分布のパラメータはへいきんと分散であるため、パラメータ$\boldsymbol{\eta}$は、$\mathbf{u}$と$\boldsymbol {\Sigma}$が入る形になると考えられる。
ここで、最後の式の二番目の$\rm{exp}$より、$\mathbf{u}(\mathbf{x})$は
\mathbf{u}(\mathbf{x}) =
\begin{pmatrix}
\boldsymbol{\Sigma}\mathbf {x}^ \mathrm { T } \boldsymbol{\Sigma}^{-1}\mathbf {x} \\
\boldsymbol{\mu}^{-1}\mathbf {x}^ \mathrm { T }\boldsymbol {\Sigma}^{-1}\boldsymbol{\mu}
\end{pmatrix}
とおけ、
\boldsymbol {\eta} =
\begin{pmatrix}
-\frac{1}{2}\boldsymbol{\Sigma}^{-1} \\
\boldsymbol{\mu}
\end{pmatrix}
とみなせる。
ここから、残りの関数を考えると、$\boldsymbol {\Sigma}$は対角行列のため
\begin {align*}
h(\mathbf {x}) &= \frac{1}{(2\pi)^{D/2}} \\
g(\boldsymbol{\eta}) &=
\frac{1}{|\boldsymbol {\Sigma}|^{1/2}}
\rm{exp}\left\{-\frac{1}{2} \boldsymbol {\mu}\boldsymbol {\Sigma}^{-1} \boldsymbol {\mu}^ \mathrm { T }\right\} \\
&=\frac{1}{|{-2}\boldsymbol {\eta_1}|^{1/2}}
\rm{exp}\left\{\boldsymbol {\eta_2}\boldsymbol {\eta_1} \boldsymbol {\eta_2}^ \mathrm { T }\right\}
\end {align*}
最後に、これらの関数が以下の式を満たすことを示す。
\begin {align*}
g(\boldsymbol{\eta})\int h(\mathbf {x})\rm{exp}\left\{\boldsymbol {\eta}^ \mathrm {T}\mathbf{u}(\mathbf{x}) \right\}\rm{d}\mathbf {x} &= 1 \\
\tag{2.195}
\end {align*}
それぞれ代入すると
\begin {align*}
g(\boldsymbol{\eta})\int h(\mathbf {x})\rm{exp}\left\{\boldsymbol {\eta}^ \mathrm {T}\mathbf{u}(\mathbf{x})\right\}\rm{d}\mathbf {x}
& =\frac{1}{|{-2}\boldsymbol {\eta_1}|^{1/2}}
\rm{exp}\left\{\boldsymbol {\eta_2}\boldsymbol {\eta_1} \boldsymbol {\eta_2}^ \mathrm { T }\right\}\int
\frac{1}{(2\pi)^{D/2}}
\rm{exp}\left\{\boldsymbol {\eta_1} \mathbf{u}(\mathbf{x})_1 + \boldsymbol {\eta_2}\mathbf{u}(\mathbf{x})_2\right\}\rm{d}\mathbf{x}\\
&= \frac{1}{(2\pi)^{D/2}} \frac{1}{|\boldsymbol {\Sigma}|^{1/2}}
\rm{exp}\left\{-\frac{1}{2} \boldsymbol {\mu}\boldsymbol {\Sigma}^{-1} \boldsymbol {\mu}^ \mathrm { T }\right\}
\rm{exp}\left\{-\frac{1}{2}\mathbf {x}^ \mathrm { T } \boldsymbol{\Sigma}^{-1}\mathbf {x}
+\mathbf {x}^ \mathrm { T }\boldsymbol {\Sigma}^{-1}\boldsymbol{\mu} \right\}\rm{d}\mathbf{x}\\
&=\int \frac{1}{(2\pi)^{D/2}} \frac{1}{|\boldsymbol {\Sigma}|^{1/2}}\rm{exp}\left\{-\frac{1}{2}(\mathbf {x} - \boldsymbol {\mu} )\boldsymbol {\Sigma}^{-1}(\mathbf {x} - \boldsymbol {\mu} )^ \mathrm { T }\right\}\rm{d}\mathbf{x} = 1
\end {align*}
よって、多変量ガウス分布は、指数型分布族であり、$\boldsymbol {\eta}$,$\mathbf {u}(\mathbf {x})$,$h(\mathbf {x})$,および$g(\boldsymbol {\eta})$の式を示すことができた。