More than 5 years have passed since last update.

ベイズ推論の勉強用ノート（２）ー離散確率分布

Last updated at 2019-02-10Posted at 2019-02-04

目的

ベイズ推論による機械学習入門の勉強用のノート。
式を後で参照するために残しておく。

離散確率分布

ベルヌーイ分布(Bernoulli Distibution)

2値をとる変数$x \in \{0, 1\}$を生成するための確率分布

\mathtt{Bern}(x|\mu) := \mu ^x (1-\mu)^{1-x}

ただし、$\mu \in (0, 1)$
$\langle m \rangle = \mu$
$\langle m^2 \rangle = \mu$

ベルヌーイ分布のエントロピー

\begin{align}
\mathtt{H}[\mathtt{Bern}(x|\mu)] &= - \langle \ln \mathtt{Bern}(x|\mu) \rangle \\
&= -\langle \ln \mu^x(1-\mu)^{1-x} \rangle \\
&= -\langle x\ln\mu + (1-x)\ln(1-\mu) \rangle \\
&= -\langle x \rangle \ln \mu -(1-\langle x \rangle) \ln(1-\mu) \\
&= -\mu\ln \mu - (1-\mu)\ln(1-\mu)
\end{align}

ベルヌーイ分布のKLダイバージェンス

真の分布$p(x)=\mathtt{Bern}(x|\mu)$ と
近似分布(or 予測分布)$q(x)=\mathtt{Bern}(x|\hat{\mu})$ のKLダイバージェンス

\begin{align}
\mathtt{KL}[q(x)||p(x)] = -\mathtt{H}[q(x)] - \langle  \ln p(x) \rangle _{q(x)}
\end{align}

ここで、第１項は、

\begin{align}
\mathtt{H}[q(x)]
&= -\hat{\mu}\ln \hat{\mu} - (1-\hat{\mu})\ln(1-\hat{\mu})
\end{align}

第２項は、

\begin{align}
\langle  \ln p(x) \rangle _{q(x)}
 &= \langle \ln \mathtt{Bern}(x|\mu) \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle \ln \mu^x(1-\mu)^{1-x} \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle x\ln\mu + (1-x)\ln(1-\mu) \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle x \rangle _{\mathtt{Bern}(x|\hat{\mu})} \ln \mu -(1-\langle x \rangle _{\mathtt{Bern}(x|\hat{\mu})}) \ln(1-\mu) \\
&= -\hat{\mu}\ln \mu - (1-\hat{\mu})\ln(1-\mu) \\

\end{align}

二項分布(Binomial Distribution)

$M$回中表が出る回数$m \in \{0, 1, ..., M\}$ の確率分布。
「回数」に関する分布であるため、ベルヌーイ分布を単純にM回掛け算した場合とは、注目する変数が異なることに注意。

\mathtt{Bin}(m|M, \mu) := {}_M\mathrm{C}_m \mu^m (1-\mu)^{M-m}

ここで、

{}_M\mathrm{C}_m := \frac{M!}{m!(M-m)!}

特に、$M:=1$としたときは、$m\in\{0, 1\}$であるため、ベルヌーイ分布と一致する
$\langle m \rangle = M\mu$
$\langle m^2 \rangle = M\mu{(M-1)\mu+1}$

カテゴリ分布

ベルヌーイ分布をより一般的な$K$次元の確率分布に拡張した分布。
$\mathbf{s}=(s_1, ..., s_K) \in \{0, 1\}^K$を$K$次元ベクトルとし、各要素$s_k$について、$s_k \in \{0, 1\}$, かつ $\sum_{k=1}^{K} s_k = 1$を満たすとする。（このようなベクトル$\mathbf{s}$のようなベクトル表記を、1 of K 表現(1 of K representation)と呼ぶ。）

\mathtt{Cat}(\mathbf{s}|\mathbf{\pi}) := \prod _{k=1}^{K} \pi ^{s_k}

ここで、$\mathbf{\pi}=(\pi_1, ..., \pi_K)^\intercal$: 分布を決める$K$次元のパラメータで、$\pi_k $は、以下を満たす
$\pi_k \in (0, 1), \forall k \in \{1, ..., K\}, $
$\sum_{k=1}^K \pi_k = 1$
$K:=2$とすれば、カテゴリ分布は、ベルヌーイ分布と一致する
$\langle m \rangle = \pi_k$
$\langle m^2 \rangle = \pi_k$

多項分布(Multinomial Distribution)

ベルヌーイ分布の二項分布への拡張と同じように、
カテゴリ分布を拡張した分布が多項分布。
つまり、カテゴリ分布における試行回数を、$M$回繰り返した後
$k$番目の事象（カテゴリ）に関する出現回数$m_k$の分布。

\mathtt{Mult}(\mathbf{m}|\mathbf{\pi}, M) := M!\prod _{k=1}^{K} \frac{\pi ^{m_k}}{m_k!}

ここで、$\mathbf{m}=(m_1, ..., m_K) \in \mathbb{N}_0^K$
$K$次元ベクトルで、
各要素の$m_k$が、$k$番目の事象（カテゴリ）が出た回数を表している
$m_k \in \{0, 1, ..., M\}$
$\sum_{k=1}^K m_k = M$
$\pi_k\in (0, 1)$
$\sum_{k=1}^K \pi_k = 1$

\begin{equation}
\begin{aligned}
\langle x \rangle &= M\pi_k \\

\langle m_j m_k \rangle
&= 
\begin{cases}
  M\pi_k \{ (M-1)\pi_k+1 \} & (j=k) \\
  M(M-1)\pi_j\pi_k & (j \neq k)
\end{cases}
\end{aligned}
\end{equation}

$M:=1$の時、カテゴリ分布に一致
$K=2$の時、二項分布に一致

ポアソン分布(Poisson Distribution)

非負の整数$x$を生成する分布。

\mathtt{Poi}(x|\lambda) := \frac{\lambda^x}{x!} \mathrm{e}^{-\lambda}

ポアソン分布の確率密度関数に対する対数表記

\ln \mathtt{Poi}(x|\lambda) := x \ln \lambda - \ln x! - \lambda

$\langle x \rangle = \lambda$
$\langle x^2 \rangle = \lambda (\lambda +1)$

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

ベイズ推論の勉強用ノート（２）ー 離散確率分布

目的

関連