LoginSignup
11
1

More than 5 years have passed since last update.

PRMLの第一章の式(1.68)の導出方法

Posted at

PRMLの第一章に以下のような式がある。

 p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = \int p(t |x,\boldsymbol{\mathrm{w}})\, p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \tag{1.68}

これは尤度関数$p(t |x,\boldsymbol{\mathrm{w}})$と事後分布$p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})$から予測$t$の確率分布$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})$を求める式である。
この式の導出方法をここに記す。

導出方法

登場する確率変数は$t, x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}}$のみである。(ハイパーパラメータ$\alpha ,\beta$は除く。)
そこで、同時分布$p(t , x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})$は以下のようになる。

 p(t , x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = \int  p(t , x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \\
= \int  p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})p(x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \\
= \int  p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})p(x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})\ \mathrm{d}\boldsymbol{\mathrm{w}}

ここで、$p(t , x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})=p(t| x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})p(x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})$を用いると、$p(t| x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})$は以下のようになる。

p(t| x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})
= \int  p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \tag{*}

式(*)を見ると、あとは$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})=p(t |x,\boldsymbol{\mathrm{w}})$と$p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})$を示せば、式(1.68)を証明できる。
まずは、$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})=p(t |x,\boldsymbol{\mathrm{w}})$から考える。
$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})$は$x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}}$が与えられた時の$t$の分布であるが、式(1.60)を見ると$x, \boldsymbol{\mathrm{w}}$が与えられた段階で$t$が予測できることがわかる。つまり、$x, \boldsymbol{\mathrm{w}}$が与えられれば$\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}$は$t$の予測にいらない。よって、$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})=p(t |x,\boldsymbol{\mathrm{w}})$である。
次に$p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})$を考える。
これは$\boldsymbol{\mathrm{w}}$の分布は訓練データ$\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}$によって決まるので、予測の入力データ$x$が変化しても$\boldsymbol{\mathrm{w}}$の分布は変化しないので、$p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})$である。
以上より、

 p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = \int p(t |x,\boldsymbol{\mathrm{w}})\, p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \tag{1.68}

が成立する。

11
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
11
1