More than 5 years have passed since last update.

「ガウス過程と機械学習」のノートと誤植訂正(2章)

Last updated at 2019-03-17Posted at 2019-03-15

$2$章は結構大きい誤植があったりします。特に2.3.3と2.3.4には注意です。

2.1ガウス分布とは

ガウス分布のサンプリングとしてBox-Muller法というものがあるらしいです。独立な$0$より大きく$1$以下の一様乱数$r_1,r_2$を用いて，$x = \sqrt{-2 \log r_1} \sin (2 \pi r_2)$が標準正規分布になるそうです。なぜ$\sin$が現れるのかというところが不思議です。
ここでは観測値$\boldsymbol{y}$にガウス型のノイズが入るものとして，線形回帰のパラメータ$\boldsymbol{w}$として最適なものを求めます。まずデータ$X$から$\boldsymbol{y}$を予測する確率は
$$
p(\boldsymbol{y} | X) = \prod_n \dfrac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\dfrac{(y_n - \boldsymbol{w}^{T} \boldsymbol{x}_n)^2}{2 \sigma^2} \right)
$$
となる。$\boldsymbol{y}$が与えられたもとで，この確率を最大化する$\boldsymbol{w}$がもっともらしいパラメータであるという理屈は何となくわかりますが，もう少し数式で理解できたらと思います。
現在考えている確率は$X$と$\boldsymbol{w}$が与えられたもとで$\boldsymbol{y}$を観測する確率のはずなので，より正確には$p(\boldsymbol{y} | X,\boldsymbol{w})$です。そして最大化したいのは$X$と$\boldsymbol{y}$が与えられたときに$\boldsymbol{w}$を得る確率$p(\boldsymbol{w} | X,\boldsymbol{y})$です。この2つはベイズの公式から以下の関係で結ばれています：
$$
p(\boldsymbol{w} | X,\boldsymbol{y}) = \dfrac{p(\boldsymbol{w},\boldsymbol{y}|X)}{p(\boldsymbol{y})} = \dfrac{p(\boldsymbol{w})}{p(\boldsymbol{y})} p(\boldsymbol{y} | X,\boldsymbol{w})
$$
よって先ほどの$p(\boldsymbol{y} | X,\boldsymbol{w})$を最大化するということと$p(\boldsymbol{w} | X,\boldsymbol{y})$を最大化するということは等価でないように感じます。次の節で$p(\boldsymbol{w})$を考慮しているようですが，$p(\boldsymbol{y})$は考慮しなくてよいのでしょうか。一様分布として無視しているのか。ベイズはよくわかりません。この理屈をかっちりした数式で表している文献を読みたいです。

(2019/03/17追記)
$\boldsymbol{w}$について最大化するので，$p(\boldsymbol{y})$については考慮する必要はないですね。やっぱり$p(\boldsymbol{w} | X,\boldsymbol{y})$を最大化しようとしたときに，ベイズの公式から$\boldsymbol{w}$の事前分布が必要になるという考え方が自然なように感じます。

2.2重みの事前分布とリッジ回帰

重みの事前分布$p(\boldsymbol{w})$をガウス分布として導入することで，リッジ回帰と同じ結果が得られます。これは少し面白いです。

2.3多変量ガウス分布

多変量ガウス分布の確率密度関数は以下の式で表されます：
$$
\mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu},\Sigma) = \dfrac{1}{(\sqrt{2 \pi})^D \sqrt{ | \Sigma |}} \exp \left( -\dfrac{1}{2} (\boldsymbol{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\boldsymbol{x}-\boldsymbol{\mu}) \right)
$$
ここで$\boldsymbol{\mu}$と$\Sigma$はそれぞれ平均と共分散行列を表しています。

2.3.3多変量ガウス分布の周辺化

内容を簡単にまとめると，多変量ガウス分布をいくつかの変数について周辺化してつぶしてしまっても，残りの変数についてはガウス分布を保つということです。細かいミスですが，(2.42)式の右辺第2項の$\boldsymbol{x}_ 2$は$\boldsymbol{x}^T_ 2$ですね。また(2.42)から(2.43)の変形については，
$$
\boldsymbol{x}^T_1 \Lambda_{1 2} \boldsymbol{x}_2 =(\boldsymbol{x}^{T} _2 \Lambda^T _{1 2} \boldsymbol{x} _1 )^T = (\boldsymbol{x}^{T} _2 \Lambda _{2 1} \boldsymbol{x} _1)^T = \boldsymbol{x}^{T} _2 \Lambda _{2 1} \boldsymbol{x} _1
$$
となっています。一つ目の等号は転置の性質，二つ目の等号は$\Lambda _ {2 1 }$が対称行列であること，三つ目の等号は考えている量がスカラーであることを用いています(最後の等号がわかりにくいかも)。
(2019/03/17追記)
二つ目の等号の理由は$\Lambda _ {2 1}^T = \Lambda _{1 2}$であって対称行列ではないですね。申し訳ないです。

あとは平方完成をしてしまえばよいですが，きちんと式を追うのは少し面倒です。頑張って計算すると，(2.46)式に誤植を見つけました。
省略をせずに正しい$L$の表式を示し，これを展開することで(2.43)式に帰着することを説明します。

\begin{eqnarray}
L &=& (\boldsymbol{x} _2 + \Lambda _{2 2}^{-1} \Lambda _ {2 1} \boldsymbol{x} _1 )^T \Lambda _ {2 2} (\boldsymbol{x} _2 + \Lambda _{2 2}^{-1} \Lambda _ {2 1} \boldsymbol{x} _1) - \boldsymbol{x}^T _1 \Lambda _{1 2} \Lambda^{-1} _ {2 2} \Lambda _ {2 1} \boldsymbol{x} _1 +\boldsymbol{x}^T _1 \Lambda _{1 1} \boldsymbol{x} _1  \\
 &=& \boldsymbol{x}^T_2 \Lambda _{2 2} \boldsymbol{x} _2 +\boldsymbol{x}^T _2 \Lambda _{2 2} \Lambda^{-1} _{2 2} \Lambda_{2 1} \boldsymbol{x} _1 +\boldsymbol{x}_1^T \Lambda _{1 2} \Lambda^{-1} _{2 2} \Lambda_{2 2} \boldsymbol{x} _2 + \boldsymbol{x}^T _1 \Lambda _{1 2} \Lambda^{-1} _ {2 2} \Lambda _ {2 1} \boldsymbol{x} _1- \boldsymbol{x}^T _1 \Lambda _{1 2} \Lambda^{-1} _ {2 2} \Lambda _ {2 1} \boldsymbol{x} _1 +\boldsymbol{x}^T _1 \Lambda _{1 1} \boldsymbol{x} _1 \\
 &=& \boldsymbol{x}^T_2 \Lambda _{2 2} \boldsymbol{x} _2 +2 \boldsymbol{x}^T _2  \Lambda_{2 1} \boldsymbol{x} _1 +\boldsymbol{x}^T_1 \Lambda _{1 1} \boldsymbol{x} _1
\end{eqnarray}

確かに(2.43)に一致しています。途中の計算では$\Lambda _{2 1} ^T= \Lambda _ {1 2}$や$(A^{-1})^T = (A^T)^{-1}$などを利用しました。結局のところ，(2.46)においては第1項の符号と添え字，第2項の添え字が微妙に間違っています。前者は積分によって消えるため問題ありません。しかし後者は(2.48)から(2.51)まで引き継がれます。
(2.51)式は
$$
(\Lambda _{1 1} -\Lambda _{2 1} \Lambda _{2 2}^{-1} \Lambda _{2 1})^{-1} = \Sigma _{1 1}
$$
となっていますが，これは誤りで，
$$
(\Lambda _{1 1} -\Lambda _{1 2} \Lambda _{2 2}^{-1} \Lambda _{2 1})^{-1} = \Sigma _{1 1}
$$
が正しい結果(のはず)です。これは付録の$M = (A-BD^{-1}C)^{-1}$と比較しても分かります。今回$B$と$\Lambda _{1 2}$，$C$と$\Lambda _{2 1}$がそれぞれ対応しているためです。添え字がかなりややこしいので，僕も間違えているかもしれません。

ちなみにここで付録の誤植についても触れておきます。付録A.1の(A.1)式ですが，右辺の$1$行$2$列目の$-MBD-1$は$-MBD^{-1}$の誤りのはずです。実際に計算して確認しました。

2.3.4多変量ガウス分布の条件付分布

ベクトル$\boldsymbol{x}$が多変量ガウス分布に従うとき，各成分の間には(一般には)相関があります。ここで一部の次元の情報が与えられたときに，そのほかの成分の確率分布がどのように変化するのかということを考えます。まぁ結局はガウス分布になるのですが，その形が少しややこしいです。以下が$\boldsymbol{x} _1$を固定したときの$\boldsymbol{x} _2$の確率分布です：
$$
p(\boldsymbol{x} _2| \boldsymbol{x} _1) = \mathcal{N} (\boldsymbol{\mu} _2 + \Sigma _{2 1} \Sigma _{1 1}^{-1} (\boldsymbol{x} _1 - \boldsymbol{\mu} _ 1)~,~\Sigma _{2 2}-\Sigma _{2 1} \Sigma _{1 1}^{-1} \Sigma _{1 2})
$$
この証明に関しては先ほどと同様平方完成を用いていますが，対角化する方法とかもありそうです。いい方法が思いついたら追記します。
(2.57)式の結果は正しいですが，途中式に誤植があります。先ほどの$L$に対応するものを書くと，

\begin{eqnarray}
L &=& (\boldsymbol{x} _2-\boldsymbol{\mu} _2)^T \Lambda _{2 2} (\boldsymbol{x} _2-\boldsymbol{\mu} _2) +2 (\boldsymbol{x} _1-\boldsymbol{\mu} _1)^T \Lambda _{1 2} (\boldsymbol{x} _2-\boldsymbol{\mu} _2) +const. \\
 &=& \boldsymbol{x}^T _2 \Lambda _{2 2} \boldsymbol{x} _2 -2 \boldsymbol{x} _2^T \Lambda _{2 2} \boldsymbol{\mu} _2-2\boldsymbol{x}^T _2 \Lambda _{2 1} (\boldsymbol{x} _1-\boldsymbol{\mu} _1)+const. \\
 &=& \boldsymbol{x}^T _2 \Lambda _{2 2} \boldsymbol{x} _2 -2 \boldsymbol{x} _2^T (\Lambda _{2 2} \boldsymbol{\mu} _2+\Lambda _{2 1} (\boldsymbol{x} _1 - \boldsymbol{\mu} _1)) +const. \\
 &=& (\boldsymbol{x} _2 -\Lambda _{2 2}^{-1}(\Lambda _{2 2} \boldsymbol{\mu} _2 +\Lambda _{2 1}(\boldsymbol{x} _1 -\boldsymbol{\mu} _1)) )^T \Lambda _{2 2} (\boldsymbol{x} _2 - \Lambda _{2 2}^{-1}(\Lambda _{2 2} \boldsymbol{\mu} _2+\Lambda _{2 1}(\boldsymbol{x} _1 -\boldsymbol{\mu} _1))) + const.
\end{eqnarray}

となります。途中でスカラーに対する転置を外すという操作をいくつか行い，$\boldsymbol{x} _2$に対する依存性のみを取り出しています。
また$M = (\Sigma _{2 2} - \Sigma _{2 1} \Sigma _{1 1}^{-1} \Sigma _{2 1} ) ^{-1}$とありますが，付録A.1の式(A.2)を利用すると$M = (\Sigma _{2 2} - \Sigma _{2 1} \Sigma _{1 1}^{-1} \Sigma _{1 2} ) ^{-1}$になるはずです。よって(2.62)および(2.64)も同様に間違っています。しかしその後の(2.66)や公式のステートメント(2.54)では正しい結果になっています。

なんにせよ添え字がややこしくまちがえやすいため，注意する必要があります。専門書に誤植はつきものなので，疑いながら自分の手で確かめるということが重要です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up