問題
次のベイズ線形回帰の誤差関数
$$
\begin{align*}
E(\mathbf{w})
= \beta E_{D}(\mathbf{w})+\alpha E_{W}(\mathbf{w})
= \frac{\beta}{2}\left|\mathbf{t}-\Phi_{\mathbf{W}}\right|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}
\tag{3.79}
\end{align*}
$$
を考える。この(3.79)を、$\mathbf{w}$ に関して平方完成することにより、次の式
E(\mathbf{w}) =
E\left(\mathbf{m}{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}{N}\right)^{\mathrm{T}}
\mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)
\tag{3.80}
の形で書けることを示せ。
>ただし、
>```math
\mathbf{A}=\alpha \mathbf{I}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}
\tag{3.81}
E\left(\mathbf{m}{N}\right)=\frac{\beta}{2}\left|\mathbf{t}-\Phi \mathbf{m}{N}\right|^{2}+\frac{\alpha}{2} \mathbf{m}{N}^{\mathrm{T}} \mathbf{m}{N}
\tag{3.82}
>```math
\mathbf{m}_{N}=\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}
\tag{3.84}
と定義する。
方針
まず、
$ \alpha $ はパラメータ $ \mathbf{w} $が従う等方性ガウス分布の精度パラメータ、
$ \beta $ は目標変数 $ \mathrm{t} $ が従うガウスノイズ分布の精度(分散の逆数)パラメータ
です。
(3.79)を展開した上で、以下に示すような性質や式を用いるために、技巧的な式変形を駆使しながら、(3.80)を目指します。
用いる性質や式の一部を示すと、(3.81)と
\begin{align*}
\mathbf{S}_{N}^{-1}=\alpha \mathbf{I}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}
\tag{3.54}
\end{align*}
より、
\begin{align*}
\mathbf{A}^{-1}
=\mathbf{S}_{N}
\end{align*}
であることから、 $(\mathbf{A}^{-1})^\mathrm{T} = \mathbf{A}^{-1} $ となります。
よって、
\begin{align*}
\mathbf{m}_{N}^\mathrm{T}
= (\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t})^\mathrm{T}
=\beta \mathbf{t}^\mathrm{T} \boldsymbol{\Phi} (\mathbf{A}^{-1})^\mathrm{T}
= \beta \mathbf{t}^\mathrm{T} \boldsymbol{\Phi} \mathbf{A}^{-1}
\end{align*}
であることなどを用いることに注意します。
解答
\begin{align*}
\frac{\beta}{2} \|\mathbf{t}-\Phi \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}
& =\frac{\beta}{2} (\mathbf{t}^ {\mathrm{T}}-\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}})(\mathbf{t}-\Phi \mathbf{w})+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\
& =\frac{\beta}{2}\left(\mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}\right)+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\
&=\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \beta \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}\right)
(∵\mathbf{A}=\alpha \mathbf{I}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} (3.81)) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \beta \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{A}^{-1} \mathbf{A} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}\right) (∵\mathbf{A} \mathbf{A}^{-1} = \mathbf{I} )\\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}+\mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}\right) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)
\end{align*}
あとは、この式の第1項が(3.82)と等しいことを示せばよいことがわかる。
\begin{align*}
\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}\right)
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}+\mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}\right) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \beta+\mathbf{m}_{N}^{\mathrm{T}}\left(\alpha \mathbf{I}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right) \mathbf{m}_{N}\right) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \beta+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}+\alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}\right) \\
& =\frac{1}{2}\left(\beta\left(\mathbf{t}-\Phi \mathbf{m}_{N}\right)^{\mathrm{T}}\left(\mathbf{t}-\Phi \mathbf{m}_{N}\right)+\alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}\right) \\
& =\frac{\beta}{2}\left\|\mathbf{t}-\Phi \mathbf{m}_{N}\right\|^{2}+\frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}
\end{align*}
よって、題意は証明された。