目的
ベイズ推論による機械学習入門の勉強用のノート。
式を後で参照するために残しておく。
関連
離散確率分布
ベルヌーイ分布(Bernoulli Distibution)
2値をとる変数$x \in \{0, 1\}$を生成するための確率分布
\mathtt{Bern}(x|\mu) := \mu ^x (1-\mu)^{1-x}
- ただし、$\mu \in (0, 1)$
- $\langle m \rangle = \mu$
- $\langle m^2 \rangle = \mu$
ベルヌーイ分布のエントロピー
\begin{align}
\mathtt{H}[\mathtt{Bern}(x|\mu)] &= - \langle \ln \mathtt{Bern}(x|\mu) \rangle \\
&= -\langle \ln \mu^x(1-\mu)^{1-x} \rangle \\
&= -\langle x\ln\mu + (1-x)\ln(1-\mu) \rangle \\
&= -\langle x \rangle \ln \mu -(1-\langle x \rangle) \ln(1-\mu) \\
&= -\mu\ln \mu - (1-\mu)\ln(1-\mu)
\end{align}
ベルヌーイ分布のKLダイバージェンス
真の分布$p(x)=\mathtt{Bern}(x|\mu)$ と
近似分布(or 予測分布)$q(x)=\mathtt{Bern}(x|\hat{\mu})$ のKLダイバージェンス
\begin{align}
\mathtt{KL}[q(x)||p(x)] = -\mathtt{H}[q(x)] - \langle \ln p(x) \rangle _{q(x)}
\end{align}
ここで、第1項は、
\begin{align}
\mathtt{H}[q(x)]
&= -\hat{\mu}\ln \hat{\mu} - (1-\hat{\mu})\ln(1-\hat{\mu})
\end{align}
第2項は、
\begin{align}
\langle \ln p(x) \rangle _{q(x)}
&= \langle \ln \mathtt{Bern}(x|\mu) \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle \ln \mu^x(1-\mu)^{1-x} \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle x\ln\mu + (1-x)\ln(1-\mu) \rangle _{\mathtt{Bern}(x|\hat{\mu})} \\
&= -\langle x \rangle _{\mathtt{Bern}(x|\hat{\mu})} \ln \mu -(1-\langle x \rangle _{\mathtt{Bern}(x|\hat{\mu})}) \ln(1-\mu) \\
&= -\hat{\mu}\ln \mu - (1-\hat{\mu})\ln(1-\mu) \\
\end{align}
二項分布(Binomial Distribution)
$M$回中表が出る回数$m \in \{0, 1, ..., M\}$ の確率分布。
「回数」に関する分布であるため、ベルヌーイ分布を単純にM回掛け算した場合とは、注目する変数が異なることに注意。
\mathtt{Bin}(m|M, \mu) := {}_M\mathrm{C}_m \mu^m (1-\mu)^{M-m}
ここで、
{}_M\mathrm{C}_m := \frac{M!}{m!(M-m)!}
- 特に、$M:=1$としたときは、$m\in\{0, 1\}$であるため、ベルヌーイ分布と一致する
- $\langle m \rangle = M\mu$
- $\langle m^2 \rangle = M\mu{(M-1)\mu+1}$
カテゴリ分布
ベルヌーイ分布をより一般的な$K$次元の確率分布に拡張した分布。
$\mathbf{s}=(s_1, ..., s_K) \in \{0, 1\}^K$を$K$次元ベクトルとし、各要素$s_k$について、$s_k \in \{0, 1\}$, かつ $\sum_{k=1}^{K} s_k = 1$を満たすとする。(このようなベクトル$\mathbf{s}$のようなベクトル表記を、1 of K 表現(1 of K representation)と呼ぶ。)
\mathtt{Cat}(\mathbf{s}|\mathbf{\pi}) := \prod _{k=1}^{K} \pi ^{s_k}
- ここで、$\mathbf{\pi}=(\pi_1, ..., \pi_K)^\intercal$: 分布を決める$K$次元のパラメータで、$\pi_k $は、以下を満たす
- $\pi_k \in (0, 1), \forall k \in \{1, ..., K\}, $
- $\sum_{k=1}^K \pi_k = 1$
- $K:=2$とすれば、カテゴリ分布は、ベルヌーイ分布と一致する
- $\langle m \rangle = \pi_k$
- $\langle m^2 \rangle = \pi_k$
多項分布(Multinomial Distribution)
ベルヌーイ分布の二項分布への拡張と同じように、
カテゴリ分布を拡張した分布が多項分布。
つまり、カテゴリ分布における試行回数を、$M$回繰り返した後
$k$番目の事象(カテゴリ)に関する出現回数$m_k$の分布。
\mathtt{Mult}(\mathbf{m}|\mathbf{\pi}, M) := M!\prod _{k=1}^{K} \frac{\pi ^{m_k}}{m_k!}
- ここで、$\mathbf{m}=(m_1, ..., m_K) \in \mathbb{N}_0^K$
- $K$次元ベクトルで、
各要素の$m_k$が、$k$番目の事象(カテゴリ)が出た回数を表している - $m_k \in \{0, 1, ..., M\}$
- $\sum_{k=1}^K m_k = M$
- $\pi_k\in (0, 1)$
- $\sum_{k=1}^K \pi_k = 1$
\begin{equation}
\begin{aligned}
\langle x \rangle &= M\pi_k \\
\langle m_j m_k \rangle
&=
\begin{cases}
M\pi_k \{ (M-1)\pi_k+1 \} & (j=k) \\
M(M-1)\pi_j\pi_k & (j \neq k)
\end{cases}
\end{aligned}
\end{equation}
- $M:=1$の時、カテゴリ分布に一致
- $K=2$の時、二項分布に一致
ポアソン分布(Poisson Distribution)
非負の整数$x$を生成する分布。
\mathtt{Poi}(x|\lambda) := \frac{\lambda^x}{x!} \mathrm{e}^{-\lambda}
ポアソン分布の確率密度関数に対する対数表記
\ln \mathtt{Poi}(x|\lambda) := x \ln \lambda - \ln x! - \lambda
- $\langle x \rangle = \lambda$
- $\langle x^2 \rangle = \lambda (\lambda +1)$