この記事では統計学・機械学習の教科書である、C. M. Bishop 著「パターン認識と機械学習」(略称:PRML)の演習問題を私が解いた結果を載せています。この本は私が所属する研究室の輪読会で現在扱われていて、勉強の一環として演習問題を解いています。
\newcommand{\boa}[1]{\mathbf{#1}}
\newcommand{\bog}[1]{\boldsymbol{#1}}
\newcommand{\x}{\boa{x}}
\newcommand{\y}{\boa{y}}
\newcommand{\A}{\boa{A}}
\newcommand{\b}{\boa{b}}
\newcommand{\L}{\boa{L}}
問題
2つの確率変数のベクトル $\x, \y$ において、以下の条件
\begin{align}
p(\x) &= \mathcal{N}(\x | \bog{\mu}, \bog{\Lambda}^{-1})
\tag{2.113} \\
p(\y | \x) &= \mathcal{N}(\y | \A\x+\b, \L^{-1})
\tag{2.114}
\end{align}
が与えられた時、$p(\y), p(\x|\y)$ は以下のように与えられることが本文中で示されている。
\begin{align}
p(\y) &= \mathcal{N}(\y |
\A \bog{\mu}+\b,
\L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T}
) \tag{2.115} \\
p(\x | \y) &= \mathcal{N}(\x |
\bog{\Sigma} \left\{ \A^{\rm T} \L (\y-\b) + \bog{\Lambda} \bog{\mu} \right\},
\bog{\Sigma}
) \tag{2.116} \\
\bog{\Sigma} &= \left( \bog{\Lambda} + \A^{\rm T} \L \A \right) ^ {-1} \tag{2.117}
\end{align}
$\x, \y$ における対称性から、式 $(2.115), (2.116)$ に上の公式を再度当てはめると、式 $(2.113), (2.114)$ に戻るはずである。これを確かめる。
解答
まず、何をすればよいか明確にするため、式 $(2.115), (2.116)$ に登場する形を以下のように定義する(下付きの $r$ はreverseの頭文字)。
\begin{align}
\bog{\mu}_r &= \A \bog{\mu}+\b \\
\bog{\Lambda}_r &= \left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1} \\
\A_r &= \bog{\Sigma} \A^{\rm T} \L \\
\b_r &= \bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) \\
\L_r &= \bog{\Sigma} ^ {-1} \\
\end{align}
すると、式 $(2.115), (2.116)$ は以下のように書き直すことができる。
\begin{align}
p(\y) &= \mathcal{N}(\y | \bog{\mu}_r, \bog{\Lambda}_r^{-1}) \tag{ex1} \\
p(\x | \y) &= \mathcal{N}(\x | \A_r \y + \b_r, \L_r^{-1}) \tag{ex2}
\end{align}
これらに再度、式 $(2.113), (2.114)$ から式 $(2.115), (2.116)$ を導出する過程を適用すると、$\bog{\mu}_r, \bog{\Lambda}_r, \A_r, \b_r, \L_r$ を使って $p(\x), p(\y|\x)$ を書き表すことができる。
\begin{align}
p(\x) &= \mathcal{N}(\x |
\A_r \bog{\mu}_r+\b_r,
\L_r^{-1} + \A_r \bog{\Lambda}_r^{-1} \A_r ^ {\rm T}
) \tag{ex3} \\
p(\y | \x) &= \mathcal{N}(\y |
\bog{\Sigma}_r \left\{ \A_r^{\rm T} \L_r (\x-\b_r) + \bog{\Lambda}_r \bog{\mu}_r \right\},
\bog{\Sigma}_r
) \tag{ex4} \\
\bog{\Sigma}_r &= \left( \bog{\Lambda}_r + \A_r^{\rm T} \L_r \A_r \right) ^ {-1} \tag{ex5}
\end{align}
これらは式 $(2.113), (2.114)$ と同じものであるはずである、というのが今回示したいことである。ここからは各項を比較してそれを示す。まず $p(\x)$ の平均について計算する。
\begin{align}
\A_r \bog{\mu}_r+\b_r
&= \bog{\Sigma} \A^{\rm T} \L (\A \bog{\mu}+\b) +
\bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) \\
&= \bog{\Sigma} \A^{\rm T} \L \A \bog{\mu} +
\bog{\Sigma} \bog{\Lambda} \bog{\mu} \\
&= \bog{\Sigma} (\A^{\rm T} \L \A + \bog{\Lambda}) \bog{\mu} \\
&= \bog{\mu}
\end{align}
$p(\x)$ の分散について計算する。
\begin{align}
\L_r^{-1} + \A_r \bog{\Lambda}_r^{-1} \A_r ^ {\rm T}
&= \bog{\Sigma} + \bog{\Sigma} \A^{\rm T} \L
\left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right)
(\bog{\Sigma} \A^{\rm T} \L) ^ {\rm T} \\
&= \bog{\Sigma} + \bog{\Sigma} \A^{\rm T} \L
\left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right)
\L \A \bog{\Sigma} \\
&= \bog{\Sigma} +
\bog{\Sigma} \A^{\rm T} \L \A \bog{\Sigma} +
\bog{\Sigma} \A^{\rm T} \L \A \bog{\Lambda}^{-1} \A ^ {\rm T} \L \A \bog{\Sigma} \\
&= \bog{\Sigma} +
\bog{\Sigma} \A^{\rm T} \L \A \bog{\Lambda}^{-1}
\left( \bog{\Lambda} + \A ^ {\rm T} \L \A \right) \bog{\Sigma} \\
&= \bog{\Sigma} +
\bog{\Sigma} \A^{\rm T} \L \A \bog{\Lambda}^{-1} \\
&= \bog{\Sigma} \left( \bog{\Lambda} + \A^{\rm T} \L \A \right) \bog{\Lambda}^{-1} \\
&= \bog{\Lambda}^{-1}
\end{align}
$p(\y|\x)$ の分散について計算する。3行目から4行目の式変形にはWoodburyの公式を用いている。
\begin{align}
\bog{\Sigma}_r
&= \left( \bog{\Lambda}_r + \A_r^{\rm T} \L_r \A_r \right) ^ {-1} \\
&= \left\{
\left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1} +
(\bog{\Sigma} \A^{\rm T} \L) ^ {\rm T}
\bog{\Sigma} ^ {-1} \bog{\Sigma} \A^{\rm T} \L
\right\} ^ {-1} \\
&= \left\{
\left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1} +
\L \A \bog{\Sigma} \A^{\rm T} \L
\right\} ^ {-1} \\
&= \left\{
\L -
\L \A \left( \bog{\Lambda}^{-1} + \A^{\rm T} \L \A \right) ^ {-1} \A^{\rm T} \L +
\L \A \bog{\Sigma} \A^{\rm T} \L
\right\} ^ {-1} \\
&= \left\{
\L -
\L \A \bog{\Sigma} \A^{\rm T} \L +
\L \A \bog{\Sigma} \A^{\rm T} \L
\right\} ^ {-1} \\
&= \L ^ {-1}
\end{align}
この結果を用いて、$p(\y|\x)$ の平均について計算する。5行目から6行目の式変形にはWoodburyの公式を用いている。
\begin{align}
\bog{\Sigma}_r \A_r^{\rm T} \L_r
&= \L^{-1} \left( \bog{\Sigma} \A^{\rm T} \L \right)^{\rm T} \bog{\Sigma} ^ {-1} \\
&= \L^{-1} \L \A \bog{\Sigma} \bog{\Sigma} ^ {-1} \\
&= \A \\
\bog{\Sigma}_r \left(- \A_r^{\rm T} \L_r \b_r + \bog{\Lambda}_r \bog{\mu}_r \right)
&= \L^{-1} \left\{
-\left( \bog{\Sigma} \A^{\rm T} \L \right)^{\rm T} \bog{\Sigma} ^ {-1}
\bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) +
\left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1}
\left( \A \bog{\mu}+\b \right)
\right\} \\
&= \L^{-1} \left\{
-\L \A \bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) +
\left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1}
\left( \A \bog{\mu}+\b \right)
\right\} \\
&= \L^{-1} \left\{
-\L \A \bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) +
\left( \L - \L \A \bog{\Sigma} \A ^ {\rm T} \L \right)
\left( \A \bog{\mu}+\b \right)
\right\} \\
&= \L^{-1} \left\{
-\L \A \bog{\Sigma}
\left(
-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} +
\A^{\rm T} \L \A \bog{\mu} + \A^{\rm T} \L \b
\right) +
\L \left( \A \bog{\mu}+\b \right)
\right\} \\
&= \L^{-1} \left\{
-\L \A \bog{\Sigma}
\left(\bog{\Lambda} + \A^{\rm T} \L \A \right) \bog{\mu} +
\L \left( \A \bog{\mu}+\b \right)
\right\} \\
&= \L^{-1} \left\{
-\L \A \bog{\mu} +
\L \left( \A \bog{\mu}+\b \right)
\right\} \\
&= \L^{-1} \L \b \\
&= \b \\
\end{align}
以上により、題意は示された。