二年連続で確率と統計の単位を落としたエンジニアによる PRML 勉強会発表資料です
問題 3.7
$m_N$ と $S_N$ がそれぞれ (3.50) と (3.51) で定義される線形基底関数モデルを考える。平方完成を用いて、このモデルのパラメータ $w$ の事後分布が (3.49) で与えられることを確かめよ。
方針
- 事後分布 $p(w|t)$ をベイズの定理でわかっている確率の積に変換
- それぞれ正規分布なので正規分布の定義で書き下し
- exp の中だけを取り出す
- ふろくの「2つの正規分布の同一性」 参照
- ひたすら分解していく
- (3.49) の式も同様に分解し exp の中だけを取り出す
- 1, 5 の分解した式が一致することを確認
ふろくの「2つの正規分布の同一性」の通り exp の外の定数倍と exp の中の定数項は無視して良いので、ガンガン無視していきます。
解答
事後分布からの計算
p(w|t) \propto p(t|w)p(w)
(3.10), (3.48) より
=\prod_{n=1}^N \left\{ \mathscr{N} (t_n|w^T\phi(x_n), \beta^{-1}) \right\} \mathscr{N}(w|m_0, S_0)\\
\propto \left( \prod_{n=1}^N exp\left[ -\frac{1}{2} \left\{ t_n - w^T \phi(x_n) \right\}^2 \beta \right] \right) exp\left[ -\frac{1}{2} (w - m_0)^TS_0^{-1}(w - m_0) \right]\\
= exp\left[ -\frac{1}{2} \left\{ \beta \sum_{n=1}^N \left( t_n - w^T\phi(x_n) \right)^2 + (w - m_0)^TS_0^{-1}(w - m_0) \right\} \right]
以下では exp の中の $-\frac{1}{2}$ の中のみを見ていきましょう。
ふろくの「2つの正規分布の同一性」の通り、ここでは w の次数ごとの係数を調べていきます。そのため w で式をくくっていきます。
\beta \sum_{n=1}^N \left( t_n - w^T\phi(x_n) \right)^2 + (w - m_0)^TS_0^{-1}(w - m_0)\\
= \beta \left( \begin{array}{c}
t_1 - w^T\phi(x_1) \\
\vdots\\
t_N - w^T\phi(x_N)
\end{array} \right)^T
\left( \begin{array}{c}
t_1 - w^T\phi(x_1) \\
\vdots\\
t_N - w^T\phi(x_N)
\end{array} \right)
+ (w - m_0)^TS_0^{-1}(w - m_0)
$w^T\phi(x_1) = \phi^T(x_1)w$ なので
= \beta \left( \begin{array}{c}
t_1 - \phi^T(x_1)w \\
\vdots\\
t_N - \phi^T(x_N)w
\end{array} \right)^T
\left( \begin{array}{c}
t_1 - \phi^T(x_1)w \\
\vdots\\
t_N - \phi^T(x_N)w
\end{array} \right)
+ (w - m_0)^TS_0^{-1}(w - m_0)\\
ここで、
\Phi = \left( \begin{array}{c}
\phi^T(x_1) \\
\vdots\\
\phi^T(x_N)
\end{array} \right)
であるので、定数項を C とおくとして
= \beta (t - \Phi w)^T(t - \Phi w) + (w - m_0)^TS_0^{-1}(w - m_0)\\
= \beta ( w^T\Phi^T\Phi w - w^T\Phi^Tt - t^T\Phi w ) + w^TS_0^{-1}w - w^TS_0^{-1}m_0 - m_0^TS_0^{-1}w + C\\
$S_0$ は共分散なので対称行列となる。よってその逆行列も対称行列なので $(S_0^{-1})^T = S_0^{-1}$。これを w の係数に適用して、
= w^T(S_0^{-1} + \beta \Phi^T\Phi)w - w^T(S_0^{-1}m_0 + \beta \Phi^T t) - (S_0^{-1}m_0 + \beta \Phi^T t)^Tw + C
ここで $R = S_0^{-1} m_0 + \beta \Phi^Tt$ とすると
= w^TS_N^{-1}w - w^TR - R^Tw + C
本当はここから平方完成を使って (3.49) へと導いていきますが、この記事では逆に (3.49) を書き下して上記の式と一致することを確認します。
(3.49) の書き下し
\mathscr{N}(w|m_N, S_N)\\
\propto exp\left\{ -\frac{1}{2} (w - m_N)^T S_N^{-1} (w - m_N) \right\}
ここでも exp の中の $-\frac{1}{2}$ の中のみを見ていきます。
(w - m_N)^T S_N^{-1} (w - m_N)\\
ここで、 $m_N, S_N$ はそれぞれ以下のように与えられています。
m_N = S_N(S_0^{-1} m_0 + \beta \Phi^Tt) = S_NR\\
S_N^{-1} = S_0^{-1} + \beta \Phi^T \Phi
ここで $S_N$ は事後分布から導き出した目標の式にも出てきますので展開せず、 $m_N$ を展開していきます。
(w - m_N)^T S_N^{-1} (w - m_N)\\
= (w - S_NR)^T S_N^{-1} (w - S_NR)\\
= w^T S_N^{-1} w - w^T R - R^Tw + C
よって、事後分布 $p(w|t)$ と $\mathscr{N}(w|m_N, S_N)$ は同じ正規分布となります。
問題 3.8
3.1 説の線形基底関数モデルを考える。そして、すでに N 個のデータ点が観測され、 w の事後分布が(3.49)で与えられるとする。この事後分布は次に観測されるデータの事前確率とみなすことができる。追加のデータ点 $(x_{N+1}, t_{N+1})$ を考え、指数関数の中で平方完成することにより、事後確率が再び (3.49) の形式で与えられ、 $S_N$ を $S_{N+1}$ に、 $m_N$ を $m_{N+1}$ にそれぞれ置き換えたものになることを示せ
方針
同じです。
- 事後分布 $p(w|t, t_{N+1})$ をベイズの定理でわかっている確率の積に変換
- それぞれ正規分布なので正規分布の定義で書き下し
- exp の中だけを取り出す
- ふろくの「2つの正規分布の同一性」 参照
- ひたすら分解していく
- (3.49) の式で N を N+1 にしたものも同様に分解し exp の中だけを取り出す
- 1, 5 の分解した式が一致することを確認
ふろくの「2つの正規分布の同一性」の通り exp の外の定数倍と exp の中の定数項は無視して良いので、ガンガン無視していきます。
解答
事後分布からの計算
p(w|t, t_{N+1}) \propto p(w|t) p(t_{N+1}|w)\\
= \mathscr{N}(w|m_N, S_N) \mathscr{N}(t_{N+1}|w^T\phi(x_{N+1}), \beta^{-1})\\
\propto exp \left[- \frac{1}{2} \left\{ (w - m_N)^T S_N^{-1} (w - m_N) + \beta \left( t_{N+1} - w^T\phi(x_{N+1}) \right)^2 \right\} \right]
ここでも exp の中の $-\frac{1}{2}$ の中のみを見ます。定数項は C とおきます。
(w - m_N)^T S_N^{-1} (w - m_N) + \beta \left( t_{N+1} - w^T\phi(x_{N+1}) \right)^2\\
= w^T S_N^{-1} w - w^T S_N^{-1} m_N - m_N^T S_N^{-1} w + \beta w^T \phi(x_{N+1}) \phi^T(x_{N+1}) w - \beta t_{N+1} w^T \phi(x_{N+1}) - \beta t_{N+1} \phi(x_{N+1})^T w + C\\
= w^T \left( S_N^{-1} + \beta \phi(x_{N+1}) \phi^T(x_{N+1}) \right) w - w^T \left( S_N^{-1} m_N + \beta t_{N+1} \phi(x_{N+1}) \right) - \left( S_N^{-1} m_N + \beta t_{N+1} \phi(x_{N+1}) \right)^T w
(3.49) の式で N を N+1 にしたものの書き下し
N+1 の世界での $\Phi(N+1)^T\Phi(N+1)$, $\Phi(N+1)t(N+1)$ を考えると以下のようになります。
\Phi(N+1)^T\Phi(N+1)\\
= \left( \phi(x_1), \dots, \phi(x_N), \phi(x_{N+1}) \right) \left( \begin{array}{c}
\phi^T(x_1) \\
\vdots\\
\phi^T(x_N)\\
\phi^T(x_{N+1})
\end{array} \right)\\
= \Phi^T\Phi + \phi(x_{N+1}) \phi^T(x_{N+1})\\
\ \\
\Phi(N+1)t(N+1) = \Phi t + \phi(x_{N+1})t_{N+1}
したがって
S_{N+1}^{-1} = S_N^{-1} + \beta \phi(x_{N+1}) \phi^T(x_{N+1})\\
m_{N+1} = S_{N+1} \left\{ S_0^{-1} m_0 + \beta \Phi^T t + \beta t_{N+1} \phi(x_{N+1}) \right\}\\
= S_{N+1} \left\{ S_N^{-1} S_N (S_0^{-1} m_0 + \beta \Phi^T t) + \beta t_{N+1} \phi(x_{N+1}) \right\}\\
= S_{N+1} \left\{ S_N^{-1} m_N + \beta t_{N+1} \phi(x_{N+1}) \right\}
というわけで (3.49) の式で N を N+1 にしたものを計算していきます。
\mathscr{N}(w|m_{N+1}, S_{N+1})\\
\propto exp\left[ -\frac{1}{2} (w - m_{N+1})^TS_{N+1}^{-1}(w - m_{N+1}) \right]
ここでも exp の中の $-\frac{1}{2}$ の中のみを見ます。定数項は C とおきます。
(w - m_{N+1})^TS_{N+1}^{-1}(w - m_{N+1})\\
= w^T S_{N+1}^{-1} w - w^T S_{N+1}^{-1} m_{N+1} - m_{N+1}^T S_{N+1}^{-1} w + C\\
= w^T \left\{ S_N^{-1} + \beta \phi(x_{N+1}) \phi^T(x_{N+1}) \right\} w - w^T \left( S_N^{-1} m_N + \beta t_{N+1} \phi(x_{N+1}) \right) - \left( S_N^{-1} m_N + \beta t_{N+1} \phi(x_{N+1}) \right)^T w
よって2つの正規分布は同一のものです。
ふろく
2つの正規分布の同一性
正規分布では exp の中の二次の項、一次の項の係数が一致すればその2つの正規分布は同じ分布となります。
p_1(w) = A * exp \left[ -\frac{1}{2} \left\{ w^TXw + w^TY + wZ + B \right\} \right]\\
p_2(w) = C * exp \left[ -\frac{1}{2} \left\{ w^TXw + w^TY + wZ + D \right\} \right]
この $p_1(w)$ と $p_2(w)$ は全く同じ分布です。
なぜなら、 B, D はそれぞれ w に関係無いので exp の外に出すと、 exp の係数となります。そうすると exp 内は $p_1(w)$ と $p_2(w)$ で同一になります。
そして、 $p_1(w)$ も $p_2(w)$ も確率分布なので、積分すると総和は1となるはずです。
したがって、 exp の係数は exp の中によって決定されるので、 $p_1(w)$ と $p_2(w)$ のそれぞれの exp の係数は必ず同じ値になるのです。