##はじめに
本記事は, 機械学習の教科書の決定版ともいえる, Christopher Bishop先生による『Pattern Recognition and Machine Learning (パターン認識と機械学習)』, 通称PRMLの演習問題のうち, 私が解いた問題の解答を記したものです
##問題
変数を一つずつ周辺化することによって、有向グラフの同時分布の表現(8.5)が正しく規格化されていることを示せ。ただし、個々の条件付き分布は正しく規格化されていると仮定する。
p(\mathbf{x})=\prod_{k=1}^{K} p\left(x_{k} \mid \mathrm{pa}_{k}\right)\quad(\text { 8.5 })
##解答
p(x)の各変数によって周辺化を行っていき、以下の式を満たすように考えます
\sum_{x_{1}} \ldots \sum_{x_{K}} p(\mathbf{x})=\sum_{x_{1}} \ldots \sum_{x_{K}} \prod_{k=1}^{K} p\left(x_{k} \mid \mathrm{pa}_{k}\right)=1
個々の条件付き分布は正しく規格化されていると仮定するので、一つずつ打ち消していきます
\begin{aligned}
\sum_{x_{1}} \cdots \sum_{x_{K}} p(\mathbf{x}) &=\sum_{x_{1}} \cdots \sum_{x_{K}} p\left(x_{K} \mid \mathrm{pa}_{K}\right) \prod_{k=1}^{K-1} p\left(x_{k} \mid \mathrm{pa}_{k}\right) \\
&=\sum_{x_{1}} \cdots \sum_{x_{K-1}} \prod_{k=1}^{K-1} p\left(x_{k} \mid \mathrm{pa}_{k}\right)
\end{aligned}
最終的に、以下のように最後まで消えてしまい、規格化したことが示されます
\sum_{x_{1}} p\left(x_{1} \mid \emptyset\right)=1
よって題意は示されました。