PRML 演習3.17の解説
ここまでのあらすじ
3.1 線形基底関数モデル
線形回帰に基底関数導入するとより複雑なモデルを表現できる
3.1.1 最尤推定と最小二乗法
$\boldsymbol{w}$求める時はガウスノイズ過程して対数尤度求めて微分する
3.1.2 最小二乗法の幾何学
最小二乗法は部分空間から部分空間への正射影を考えているのと同じこと
3.1.3 逐次学習
オンライン学習もできるよ
3.1.4 正則化最小二乗法
正則化しようぜ
3.1.5 出力変数が多次元の場合
目的変数が多次元でも解けるよ
3.2 バイアス−バリアンス分解
単純なモデル:バイアスが大きくて、バリアンスが小さくなる(未学習)
複雑なモデル:バイアスが小さく、バリアンスが大きくなる(過学習)
3.3 ベイズ線形回帰
$\boldsymbol{w}$に確率分布導入して、ベイズベイズしようぜ
3.3.1 パラメータの分布
$p(\boldsymbol{w})$にガウス分布を仮定するとリッジ回帰と同じ式になる
3.3.2 予測分布
$\boldsymbol{w}$に分布を導入すると予測にも分布を導入することができる
3.3.3 等価カーネル
ベイズ線形回帰は等価カーネルを使用したガウシアンプロセスと同じ?(自信なし・・・)
3.4 ベイズモデル比較
ここ難しいぜ・・・
3.5 エビデンス近似
前節までは、$p(w|\alpha)$のハイパーパラメータである$\alpha$、尤度関数$p(\boldsymbol{t}|w,\beta)$のハイパーパラメータである$\beta$は事前に決定しておくパラメータであった(ただし、$t$は予測値、$\boldsymbol{t}$は実測値のベクトルを表す)。
本節では、この2つのパラメータに対しても、$p(\alpha)$, $p(\beta)$という確率分布を導入することにより、データから決定を行う。
機械学習におけるエビデンスの説明
データ集合$\boldsymbol{t}$とパラメータ$\theta$の関係をベイズの式で表すと以下のようになる。
p(\theta|\boldsymbol{t})=\frac{p(\boldsymbol{t}|\theta)p(\theta)}{p(\boldsymbol{t})}
ここで、
$p(\boldsymbol{t}|\theta)$は尤度関数という。ベイズじゃない考え方だと、これを最大化するようにパラメータを求める。
$p(\theta)$は事前分布という。
$p(\boldsymbol{t})$、これのことをエビデンスと呼ぶ。
$p(\boldsymbol{t})$は、
p(\boldsymbol{t}) = \int p(\boldsymbol{t}|\theta)p(\theta)d\theta
のように尤度関数$p(\boldsymbol{t}|\theta)$を周辺化して求められる。
このことから、機械学習では尤度関数を周辺化したものをエビデンスと呼ぶ。
参照:http://machine-learning.hatenablog.com/entry/2016/05/09/073119
alpha, betaの求め方
3.3節で最大化した事後分布は以下のように表せる。
p(w|\boldsymbol{t},\hat{\alpha},\hat{\beta}) = \frac{p(\boldsymbol{t}|w,\hat{\beta})p(w|\hat{\alpha})}{p(\boldsymbol{t})}
$\alpha$, $\beta$にも事前分布を導入すると、この式は以下のようになってしまう。
p(w,\alpha,\beta|\boldsymbol{t})=\frac{p(\boldsymbol{t}|w,\beta)p(w|\alpha)p(\alpha)p(\beta)}{p(\boldsymbol{t})}
これを解くのはすごく大変・・・
そこで、尤度関数$p(\boldsymbol{t}|w,\beta)p(w|\alpha)$を周辺化して、$\alpha$, $\beta$の関数(エビデンス)$p(\boldsymbol{t}|\alpha,\beta)$に変形し、エビデンスを微分し、最大にする$\alpha$, $\beta$を求めようというのがここでの戦略。
いよいよ演習3.17
尤度関数$p(\boldsymbol{t}|w,\alpha,\beta)p(w|\alpha)$を周辺化する式は、以下の式である。
p(\boldsymbol{t}|\alpha,\beta) = \int p(\boldsymbol{t}|w, \beta)p(w|\alpha)dw \hspace{1cm}(式3.77)
$p(\boldsymbol{t}|w,\beta)$は
\ln p(\boldsymbol{t}|w, \beta) = \frac{N}{2} \ln \beta - \frac{N}{2} \ln (2\pi) - \beta E_D(w)\hspace{1cm}(式3.11)
を変形することにより、
p(\boldsymbol{t}|w, \beta)=\Bigl(\frac{\beta}{2\pi}\Bigr)^{\frac{N}{2}}\exp \Bigl\{-\beta E_D(w)\Bigr\}\hspace{1cm}(式3.11')
となる。ただし、$E_D(w)=\frac{1}{2}\sum_{n=1}^{N}\{t-w^T\phi(x_n)\}^2$である。
一方で、$p(w|\alpha)$は
\begin{align}
p(w|\alpha) &= N(w|0, \alpha^{-1}I) \\
&= \Bigl(\frac{1}{2\pi}\Bigr)^{\frac{M}{2}} \frac{1}{|\alpha^{-1}I|^{\frac{1}{2}}}\exp \Bigl\{-\frac{1}{2}w^T\alpha I w \Bigr\} \\
&= \Bigl(\frac{1}{2\pi}\Bigr)^{\frac{M}{2}} \frac{1}{\alpha^{-\frac{M}{2}}} \exp \Bigl\{-\frac{\alpha}{2}w^Tw\Bigr\} \\
&= \Bigl(\frac{\alpha}{2\pi}\Bigr)^{\frac{M}{2}} \exp \Bigl\{-\alpha E_W(w)\Bigr\}\hspace{1cm}(式3.52')
\end{align}
となる。ただし、$E_W(w)=\frac{1}{2}w^Tw$である。
式3.77に、式3.11'、式3.52'を代入すると
\begin{align}
p(\boldsymbol{t}|\alpha,\beta) &= \int \Bigl(\frac{\beta}{2\pi}\Bigr)^{\frac{N}{2}}\exp \Bigl\{-\beta E_D(w)\Bigr\} \Bigl(\frac{\alpha}{2\pi}\Bigr)^{\frac{M}{2}} \exp \Bigl\{-\alpha E_W(w)\Bigr\} dw \\
&= \Bigl(\frac{\beta}{2\pi}\Bigr)^{\frac{N}{2}} \Bigl(\frac{\alpha}{2\pi}\Bigr)^{\frac{M}{2}} \int \exp \Bigl\{-E(w) \Bigr\} dw \hspace{1cm}(式3.78)
\end{align}
となる。ただし、$E(w)=\beta E_D(w) + \alpha E_W(w)$である。
この後の展開
式3.78の$E(w)$は書き換えることが可能であり、積分が可能になる => 演習3.18, 演習3.19
よって、周辺尤度の対数$\ln p(\boldsymbol{t}|\alpha, \beta)$は以下のようになる。
\ln p(\boldsymbol{t}|\alpha, \beta) = \frac{M}{2}\ln \alpha + \frac{N}{2} \beta - E(m_N) - \frac{1}{2} \ln |A| - \frac{N}{2} \ln(2\pi) \hspace{1cm}(式3.86)
3.5.2項では、この式を微分していくことによって、実際に$\alpha$, $\beta$を求める。