LoginSignup
1
0

More than 1 year has passed since last update.

PRML 式(2.113)–(2.117)についての考察

Last updated at Posted at 2022-02-16

この記事では統計学・機械学習の教科書である、C. M. Bishop 著「パターン認識と機械学習」(略称:PRML)の演習問題を私が解いた結果を載せています。この本は私が所属する研究室の輪読会で現在扱われていて、勉強の一環として演習問題を解いています。

\newcommand{\boa}[1]{\mathbf{#1}}
\newcommand{\bog}[1]{\boldsymbol{#1}}
\newcommand{\x}{\boa{x}}
\newcommand{\y}{\boa{y}}
\newcommand{\A}{\boa{A}}
\newcommand{\b}{\boa{b}}
\newcommand{\L}{\boa{L}}

問題

 2つの確率変数のベクトル $\x, \y$ において、以下の条件

\begin{align}
p(\x)      &= \mathcal{N}(\x | \bog{\mu}, \bog{\Lambda}^{-1})
 \tag{2.113} \\
p(\y | \x) &= \mathcal{N}(\y | \A\x+\b, \L^{-1})
 \tag{2.114}
\end{align}

が与えられた時、$p(\y), p(\x|\y)$ は以下のように与えられることが本文中で示されている。

\begin{align}
p(\y)      &= \mathcal{N}(\y | 
  \A \bog{\mu}+\b,
  \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T}
) \tag{2.115} \\
p(\x | \y) &= \mathcal{N}(\x | 
  \bog{\Sigma} \left\{ \A^{\rm T} \L (\y-\b) + \bog{\Lambda} \bog{\mu} \right\},
  \bog{\Sigma}
) \tag{2.116} \\
\bog{\Sigma} &= \left( \bog{\Lambda} + \A^{\rm T} \L \A \right) ^ {-1} \tag{2.117}
\end{align}

 $\x, \y$ における対称性から、式 $(2.115), (2.116)$ に上の公式を再度当てはめると、式 $(2.113), (2.114)$ に戻るはずである。これを確かめる。

解答

 まず、何をすればよいか明確にするため、式 $(2.115), (2.116)$ に登場する形を以下のように定義する(下付きの $r$ はreverseの頭文字)。

\begin{align}
\bog{\mu}_r     &= \A \bog{\mu}+\b \\
\bog{\Lambda}_r &= \left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1} \\
\A_r            &= \bog{\Sigma} \A^{\rm T} \L \\
\b_r            &= \bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) \\
\L_r            &= \bog{\Sigma} ^ {-1} \\
\end{align}

 すると、式 $(2.115), (2.116)$ は以下のように書き直すことができる。

\begin{align}
p(\y)      &= \mathcal{N}(\y | \bog{\mu}_r, \bog{\Lambda}_r^{-1}) \tag{ex1} \\
p(\x | \y) &= \mathcal{N}(\x | \A_r \y + \b_r, \L_r^{-1}) \tag{ex2}
\end{align}

 これらに再度、式 $(2.113), (2.114)$ から式 $(2.115), (2.116)$ を導出する過程を適用すると、$\bog{\mu}_r, \bog{\Lambda}_r, \A_r, \b_r, \L_r$ を使って $p(\x), p(\y|\x)$ を書き表すことができる。

\begin{align}
p(\x)      &= \mathcal{N}(\x | 
  \A_r \bog{\mu}_r+\b_r,
  \L_r^{-1} + \A_r \bog{\Lambda}_r^{-1} \A_r ^ {\rm T}
) \tag{ex3} \\
p(\y | \x) &= \mathcal{N}(\y | 
  \bog{\Sigma}_r \left\{ \A_r^{\rm T} \L_r (\x-\b_r) + \bog{\Lambda}_r \bog{\mu}_r \right\},
  \bog{\Sigma}_r
) \tag{ex4} \\
\bog{\Sigma}_r &= \left( \bog{\Lambda}_r + \A_r^{\rm T} \L_r \A_r \right) ^ {-1} \tag{ex5}
\end{align}

 これらは式 $(2.113), (2.114)$ と同じものであるはずである、というのが今回示したいことである。ここからは各項を比較してそれを示す。まず $p(\x)$ の平均について計算する。

\begin{align}
\A_r \bog{\mu}_r+\b_r
  &= \bog{\Sigma} \A^{\rm T} \L (\A \bog{\mu}+\b) +
     \bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) \\
  &= \bog{\Sigma} \A^{\rm T} \L \A \bog{\mu} +
     \bog{\Sigma} \bog{\Lambda} \bog{\mu} \\
  &= \bog{\Sigma} (\A^{\rm T} \L \A + \bog{\Lambda}) \bog{\mu} \\
  &= \bog{\mu}
\end{align}

 $p(\x)$ の分散について計算する。

\begin{align}
\L_r^{-1} + \A_r \bog{\Lambda}_r^{-1} \A_r ^ {\rm T}
  &= \bog{\Sigma} + \bog{\Sigma} \A^{\rm T} \L
     \left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right)
     (\bog{\Sigma} \A^{\rm T} \L) ^ {\rm T} \\
  &= \bog{\Sigma} + \bog{\Sigma} \A^{\rm T} \L
     \left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right)
     \L \A \bog{\Sigma} \\
  &= \bog{\Sigma} + 
     \bog{\Sigma} \A^{\rm T} \L \A \bog{\Sigma} +
     \bog{\Sigma} \A^{\rm T} \L \A \bog{\Lambda}^{-1} \A ^ {\rm T} \L \A \bog{\Sigma} \\
  &= \bog{\Sigma} + 
     \bog{\Sigma} \A^{\rm T} \L \A \bog{\Lambda}^{-1}
     \left( \bog{\Lambda} + \A ^ {\rm T} \L \A \right) \bog{\Sigma} \\
  &= \bog{\Sigma} + 
     \bog{\Sigma} \A^{\rm T} \L \A \bog{\Lambda}^{-1} \\
  &= \bog{\Sigma} \left( \bog{\Lambda} + \A^{\rm T} \L \A \right) \bog{\Lambda}^{-1} \\
  &= \bog{\Lambda}^{-1}
\end{align}

 $p(\y|\x)$ の分散について計算する。3行目から4行目の式変形にはWoodburyの公式を用いている。

\begin{align}
\bog{\Sigma}_r
  &= \left( \bog{\Lambda}_r + \A_r^{\rm T} \L_r \A_r \right) ^ {-1}  \\
  &= \left\{
     \left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1} +
     (\bog{\Sigma} \A^{\rm T} \L) ^ {\rm T}
     \bog{\Sigma} ^ {-1} \bog{\Sigma} \A^{\rm T} \L
     \right\} ^ {-1} \\
  &= \left\{
     \left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1} +
     \L \A \bog{\Sigma} \A^{\rm T} \L
     \right\} ^ {-1} \\
  &= \left\{
     \L - 
     \L \A \left( \bog{\Lambda}^{-1} + \A^{\rm T} \L \A \right) ^ {-1} \A^{\rm T} \L +
     \L \A \bog{\Sigma} \A^{\rm T} \L
     \right\} ^ {-1} \\
  &= \left\{
     \L - 
     \L \A \bog{\Sigma} \A^{\rm T} \L +
     \L \A \bog{\Sigma} \A^{\rm T} \L
     \right\} ^ {-1} \\
  &= \L ^ {-1}
\end{align}

 この結果を用いて、$p(\y|\x)$ の平均について計算する。5行目から6行目の式変形にはWoodburyの公式を用いている。

\begin{align}
\bog{\Sigma}_r \A_r^{\rm T} \L_r
  &= \L^{-1} \left( \bog{\Sigma} \A^{\rm T} \L \right)^{\rm T} \bog{\Sigma} ^ {-1} \\
  &= \L^{-1} \L \A \bog{\Sigma} \bog{\Sigma} ^ {-1} \\
  &= \A \\
\bog{\Sigma}_r \left(- \A_r^{\rm T} \L_r \b_r + \bog{\Lambda}_r \bog{\mu}_r \right)
  &= \L^{-1} \left\{
     -\left( \bog{\Sigma} \A^{\rm T} \L \right)^{\rm T} \bog{\Sigma} ^ {-1}
     \bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) +
     \left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1}
     \left( \A \bog{\mu}+\b \right)
     \right\} \\
  &= \L^{-1} \left\{
     -\L \A \bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) +
     \left( \L^{-1} + \A \bog{\Lambda}^{-1} \A ^ {\rm T} \right) ^ {-1}
     \left( \A \bog{\mu}+\b \right)
     \right\} \\
  &= \L^{-1} \left\{
     -\L \A \bog{\Sigma} \left(-\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} \right) +
     \left( \L - \L \A \bog{\Sigma} \A ^ {\rm T} \L \right)
     \left( \A \bog{\mu}+\b \right)
     \right\} \\
  &= \L^{-1} \left\{
     -\L \A \bog{\Sigma}
     \left(
       -\A^{\rm T} \L \b + \bog{\Lambda} \bog{\mu} +
       \A^{\rm T} \L \A \bog{\mu} + \A^{\rm T} \L \b
     \right) +
     \L \left( \A \bog{\mu}+\b \right)
     \right\} \\
  &= \L^{-1} \left\{
     -\L \A \bog{\Sigma}
     \left(\bog{\Lambda} + \A^{\rm T} \L \A \right) \bog{\mu} +
     \L \left( \A \bog{\mu}+\b \right)
     \right\} \\
  &= \L^{-1} \left\{
     -\L \A \bog{\mu} +
     \L \left( \A \bog{\mu}+\b \right)
     \right\} \\
  &= \L^{-1} \L \b \\
  &= \b \\
\end{align}

 以上により、題意は示された。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0