目的
ベイズ推論による機械学習入門の勉強用のノート。
式を後で参照するために残しておく。
関連
ベイズ推論の勉強用ノート(1)ー 基本的な定義
ベイズ推論の勉強用ノート(2)ー 離散確率分布
ベイズ推論の勉強用ノート(3)ー 連続確率分布
パラメータの事後分布
- $D$:訓練データの集合
- $\theta$:モデルに含まれる未知のパラメータ
条件付き確率の定義から、同時分布$p(D, \theta)$は、以下のように分解できる。
\begin{align}
p(D, \theta) = p(D|\theta)p(\theta)
\end{align}
パラメータ$\theta$に対する事前の不確実性は、事前分布$p(\theta)$ を設定することで、モデルに反映される。
- $p(D|\theta)$:$\theta$の関数と見たとき、尤度関数(likelihood function) と呼ぶ
- 特定のパラメータ$\theta$から、どのようにしてデータ$D$が発生するのかをモデル化している部分
データ$D$を観測した後の、パラメータ$\theta$の不確実性は、以下のように更新される。(式は、ベイズの定理そのもの)
\begin{align}
p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)}
\end{align}
- この条件付き分布$p(\theta|D)$ を計算することが、
ベイズ学習の枠組みにおける「学習」に相当する - $p(\theta|D)$は、パラメータ$\theta$の事後分布
- 新しいデータ$D'$が得られたら、$p(\theta) \leftarrow p(\theta|D)$ として、$p(\theta|D') = \frac{p(D'|\theta)p(\theta)}{p(D')}$と更新する
- 実際は、$p(\theta|D,D') =
\frac{p(D'|\theta)p(\theta|D)}{p(D')}$ を計算している点に注意する