PRMLの第一章に以下のような式がある。
p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = \int p(t |x,\boldsymbol{\mathrm{w}})\, p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \tag{1.68}
これは尤度関数$p(t |x,\boldsymbol{\mathrm{w}})$と事後分布$p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})$から予測$t$の確率分布$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})$を求める式である。
この式の導出方法をここに記す。
導出方法
登場する確率変数は$t, x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}}$のみである。(ハイパーパラメータ$\alpha ,\beta$は除く。)
そこで、同時分布$p(t , x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})$は以下のようになる。
p(t , x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = \int p(t , x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \\
= \int p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})p(x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \\
= \int p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})p(x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})\ \mathrm{d}\boldsymbol{\mathrm{w}}
ここで、$p(t , x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})=p(t| x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})p(x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})$を用いると、$p(t| x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})$は以下のようになる。
p(t| x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})
= \int p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \tag{*}
式(*)を見ると、あとは$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})=p(t |x,\boldsymbol{\mathrm{w}})$と$p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})$を示せば、式(1.68)を証明できる。
まずは、$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})=p(t |x,\boldsymbol{\mathrm{w}})$から考える。
$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})$は$x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}}$が与えられた時の$t$の分布であるが、式(1.60)を見ると$x, \boldsymbol{\mathrm{w}}$が与えられた段階で$t$が予測できることがわかる。つまり、$x, \boldsymbol{\mathrm{w}}$が与えられれば$\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}$は$t$の予測にいらない。よって、$p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}, \boldsymbol{\mathrm{w}})=p(t |x,\boldsymbol{\mathrm{w}})$である。
次に$p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})$を考える。
これは$\boldsymbol{\mathrm{w}}$の分布は訓練データ$\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}$によって決まるので、予測の入力データ$x$が変化しても$\boldsymbol{\mathrm{w}}$の分布は変化しないので、$p(\boldsymbol{\mathrm{w}}|x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})$である。
以上より、
p(t | x,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{t}}) = \int p(t |x,\boldsymbol{\mathrm{w}})\, p(\boldsymbol{\mathrm{w}} | \boldsymbol{\mathrm{x}}, \boldsymbol{\mathrm{t}})\ \mathrm{d}\boldsymbol{\mathrm{w}} \tag{1.68}
が成立する。