ベイズ推論の勉強用ノート(2)ー 離散確率分布


目的

ベイズ推論による機械学習入門の勉強用のノート。

式を後で参照するために残しておく。


関連

ベイズ推論の勉強用ノート(1)ー 基本的な定義


離散確率分布


ベルヌーイ分布(Bernoulli Distibution)

2値をとる変数$x \in \{0, 1\}$を生成するための確率分布

\mathtt{Bern}(x|\mu) := \mu ^x (1-\mu)^{1-x}


  • ただし、$\mu \in (0, 1)$

  • $\langle m \rangle = \mu$

  • $\langle m^2 \rangle = \mu$


ベルヌーイ分布のエントロピー

\begin{align}

\mathtt{H}[\mathtt{Bern}(x|\mu)] &= - \langle \ln \mathtt{Bern}(x|\mu) \rangle \\
&= -\langle \ln \mu^x(1-\mu)^{1-x} \rangle \\
&= -\langle x\ln\mu + (1-x)\ln(1-\mu) \rangle \\
&= -\langle x \rangle \ln \mu -(1-\langle x \rangle) \ln(1-\mu) \\
&= -\mu\ln \mu - (1-\mu)\ln(1-\mu)
\end{align}


ベルヌーイ分布のKLダイバージェンス

真の分布$p(x)=\mathtt{Bern}(x|\mu)$ と

近似分布(or 予測分布)$q(x)=\mathtt{Bern}(x|\hat{\mu})$ のKLダイバージェンス

\begin{align}

\mathtt{KL}[q(x)||p(x)] = -\mathtt{H}[q(x)] - \langle \ln p(x) \rangle _{q(x)}
\end{align}

ここで、第1項は、

\begin{align}

\mathtt{H}[q(x)]
&= -\hat{\mu}\ln \hat{\mu} - (1-\hat{\mu})\ln(1-\hat{\mu})
\end{align}

第2項は、

\begin{align}

\langle \ln p(x) \rangle _{q(x)}
&= \langle \ln \mathtt{Bern}(x|\mu) \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle \ln \mu^x(1-\mu)^{1-x} \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle x\ln\mu + (1-x)\ln(1-\mu) \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle x \rangle _{\mathtt{Bern}(x|\hat{\mu})} \ln \mu -(1-\langle x \rangle _{\mathtt{Bern}(x|\hat{\mu})}) \ln(1-\mu) \\
&= -\hat{\mu}\ln \mu - (1-\hat{\mu})\ln(1-\mu) \\

\end{align}


二項分布(Binomial Distribution)

$M$回中表が出る回数$m \in \{0, 1, ..., M\}$ の確率分布。

「回数」に関する分布であるため、ベルヌーイ分布を単純にM回掛け算した場合とは、注目する変数が異なることに注意。

\mathtt{Bin}(m|M, \mu) := {}_M\mathrm{C}_m \mu^m (1-\mu)^{M-m}

ここで、

{}_M\mathrm{C}_m := \frac{M!}{m!(M-m)!}


  • 特に、$M:=1$としたときは、$m\in\{0, 1\}$であるため、ベルヌーイ分布と一致する

  • $\langle m \rangle = M\mu$

  • $\langle m^2 \rangle = M\mu{(M-1)\mu+1}$


カテゴリ分布

ベルヌーイ分布をより一般的な$K$次元の確率分布に拡張した分布。

$\mathbf{s}=(s_1, ..., s_K) \in \{0, 1\}^K$を$K$次元ベクトルとし、各要素$s_k$について、$s_k \in \{0, 1\}$, かつ $\sum_{k=1}^{K} s_k = 1$を満たすとする。(このようなベクトル$\mathbf{s}$のようなベクトル表記を、1 of K 表現(1 of K representation)と呼ぶ。)

\mathtt{Cat}(\mathbf{s}|\mathbf{\pi}) := \prod _{k=1}^{K} \pi ^{s_k}


  • ここで、$\mathbf{\pi}=(\pi_1, ..., \pi_K)^\intercal$: 分布を決める$K$次元のパラメータで、$\pi_k $は、以下を満たす


    • $\pi_k \in (0, 1), \forall k \in \{1, ..., K\}, $

    • $\sum_{k=1}^K \pi_k = 1$



  • $K:=2$とすれば、カテゴリ分布は、ベルヌーイ分布と一致する

  • $\langle m \rangle = \pi_k$

  • $\langle m^2 \rangle = \pi_k$


多項分布(Multinomial Distribution)

ベルヌーイ分布の二項分布への拡張と同じように、

カテゴリ分布を拡張した分布が多項分布。

つまり、カテゴリ分布における試行回数を、$M$回繰り返した後

$k$番目の事象(カテゴリ)に関する出現回数$m_k$の分布。

\mathtt{Mult}(\mathbf{m}|\mathbf{\pi}, M) := M!\prod _{k=1}^{K} \frac{\pi ^{m_k}}{m_k!}


  • ここで、$\mathbf{m}=(m_1, ..., m_K) \in \mathbb{N}_0^K$

  • $K$次元ベクトルで、
    各要素の$m_k$が、$k$番目の事象(カテゴリ)が出た回数を表している

  • $m_k \in \{0, 1, ..., M\}$

  • $\sum_{k=1}^K m_k = M$

  • $\pi_k\in (0, 1)$

  • $\sum_{k=1}^K \pi_k = 1$

\begin{equation}

\begin{aligned}
\langle x \rangle &= M\pi_k \\

\langle m_j m_k \rangle
&=
\begin{cases}
M\pi_k \{ (M-1)\pi_k+1 \} & (j=k) \\
M(M-1)\pi_j\pi_k & (j \neq k)
\end{cases}
\end{aligned}
\end{equation}


  • $M:=1$の時、カテゴリ分布に一致

  • $K=2$の時、二項分布に一致


ポアソン分布(Poisson Distribution)

非負の整数$x$を生成する分布。

\mathtt{Poi}(x|\lambda) := \frac{\lambda^x}{x!} \mathrm{e}^{-\lambda}

ポアソン分布の確率密度関数に対する対数表記

\ln \mathtt{Poi}(x|\lambda) := x \ln \lambda - \ln x! - \lambda


  • $\langle x \rangle = \lambda$

  • $\langle x^2 \rangle = \lambda (\lambda +1)$