機械学習
確率分布
確率
ベイズ推定
事後分布

ベイズ推論の勉強用ノート(4)ー 事後分布の推定


目的

ベイズ推論による機械学習入門の勉強用のノート。

式を後で参照するために残しておく。


関連

ベイズ推論の勉強用ノート(1)ー 基本的な定義

ベイズ推論の勉強用ノート(2)ー 離散確率分布

ベイズ推論の勉強用ノート(3)ー 連続確率分布


パラメータの事後分布


  • $D$:訓練データの集合

  • $\theta$:モデルに含まれる未知のパラメータ

条件付き確率の定義から、同時分布$p(D, \theta)$は、以下のように分解できる。

\begin{align}

p(D, \theta) = p(D|\theta)p(\theta)
\end{align}

パラメータ$\theta$に対する事前の不確実性は、事前分布$p(\theta)$ を設定することで、モデルに反映される。


  • $p(D|\theta)$:$\theta$の関数と見たとき、尤度関数(likelihood function) と呼ぶ

  • 特定のパラメータ$\theta$から、どのようにしてデータ$D$が発生するのかをモデル化している部分

データ$D$を観測した後の、パラメータ$\theta$の不確実性は、以下のように更新される。(式は、ベイズの定理そのもの)

\begin{align}

p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)}
\end{align}


  • この条件付き分布$p(\theta|D)$ を計算することが、
    ベイズ学習の枠組みにおける「学習」に相当する

  • $p(\theta|D)$は、パラメータ$\theta$の事後分布

  • 新しいデータ$D'$が得られたら、$p(\theta) \leftarrow p(\theta|D)$ として、$p(\theta|D') = \frac{p(D'|\theta)p(\theta)}{p(D')}$と更新する

  • 実際は、$p(\theta|D,D') =
    \frac{p(D'|\theta)p(\theta|D)}{p(D')}$ を計算している点に注意する