More than 5 years have passed since last update.

ベイズ推論の勉強用ノート（３）ー連続確率分布

Last updated at 2019-02-17Posted at 2019-02-11

目的

ベイズ推論による機械学習入門の勉強用のノート。
式を後で参照するために残しておく。

連続確率分布

ベータ分布(Beta Distribution)

\begin{align}
\mathtt{Beta}(\mu|a, b) := C_B(a, b)\mu^{a-1}(\mu-1)^{b-1}
\end{align}

ここで、$C_B(a, b) := \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}$
$\Gamma(\cdot)$ は、ガンマ関数
$C_B(a, b)$ は、正規化項であり、多くの場合では計算する必要がない

ベータ分布の対数表記は以下の通り。

\begin{align}
\ln \mathtt{Beta}(\mu|a, b) = (a-1)\ln \mu + (b-1)\ln (1-\mu) + \ln C_B(a, b)
\end{align}

ベータ分布に関する期待値は、以下の通り。

\begin{align}
\langle \mu \rangle &= \frac{a}{a+b} \\
\langle \ln \mu \rangle &= \psi(a) - \psi(a+b) \\
\langle \ln (1-\mu) \rangle &= \psi(b) - \psi(a+b) \\
\end{align}

ここで、$\psi(\cdot)$ は、ディガンマ関数(digamma function)

ベータ分布のエントロピー

\begin{align}
\mathtt{H}[\mathtt{Beta}(\mu|a, b)]
 &= - \langle \ln \mathtt{Beta}(\mu|a, b) \\
 &= - \langle (a-1)\ln \mu + (b-1)\ln (1-\mu) + \ln C_B(a, b) \rangle \\
 &= - (a-1)\langle \ln \mu \rangle - (b-1)\langle \ln (1-\mu) \rangle - \ln C_B(a, b) \\
 &= - (a-1)(\psi(a) - \psi(a+b)) - (b-1)(\psi(b) - \psi(a+b)) - \ln C_B(a, b) \\
 &= - (a-1)\psi(a) + (a-1)\psi(a+b) - (b-1)\psi(b) + (b-1)\psi(a+b) - \ln C_B(a, b) \\
 &= - (a-1)\psi(a) - (b-1)\psi(b) + (a+ b-2)\psi(a+b) - \ln C_B(a, b) \\
\end{align}

ベータ分布はベルヌーイ分布、二項分布の平均パラメータμに対する共役事前分布

ディリクレ分布(Dirichlet Distribution)

ベータ分布を多次元に拡張した確率分布。

$\pi = (\pi_1, ..., \pi_K)^{\mathsf{T}} \in (0, 1)^K$ かつ $\sum_{k=1}^{K}\pi_k = 1$を満たす$\pi$を生成する確率分布。

\begin{align}
\mathtt{Dir}(\pi|\alpha) := C_D(\alpha)\prod_{k=1}^{K} \pi_k^{\alpha_k -1}
\end{align}

ここで、$\alpha = (\alpha_1, ..., \alpha_K) \in \mathbb{R}_{+}^{K}$
$\mathbb{R}_{+}$ を、正の実数の集合とする
$K:=2$、$\pi_2 := 1-\pi_1$、$\alpha_1:=a$、$alpha_2:=b$ とすれば、ベータ分布に一致する

ディリクレ分布の対数表記は、以下の通り。

\begin{align}
\ln \mathtt{Dir}(\pi|\alpha) = \sum_{k=1}^{K} (\alpha_k -1)\ln \pi_k + \ln C_D(\alpha)
\end{align}

ディリクレ分布に関する期待値は、以下の通り。

\begin{align}
\langle \pi_k \rangle &= \frac{\alpha_k}{\sum_{i=1}^K \alpha_i}  \\
\langle \ln \pi_k \rangle &= \psi(\alpha_k) - \psi(\sum_{i=1}^K \alpha_i) \\
\end{align}

ディリクレ分布のエントロピー

\begin{align}
\mathtt{H}[\mathtt{Dir}(\pi|\alpha)]
 &= - \langle \ln \mathtt{Dir}(\pi|\alpha) \rangle \\
 &= - \langle \sum_{k=1}^K (\alpha_k-1)\ln \pi_k + \ln C_D(\alpha)\rangle \\
 &= -\sum_{k=1}^K (\alpha_k -1) \langle \ln \pi_k \rangle - \ln C_D(\alpha) \\
 &= -\sum_{k=1}^K (\alpha_k -1)(\psi(\alpha_k) - \psi(\sum_{i=1}^K\alpha_i)) - \ln C_D(\alpha) \\
\end{align}

ディリクレ分布間のKLダイバージェンス

真の分布 $p(\pi):=\mathtt{Dir}(\pi|\alpha)$と、近似分布（予測分布）$q(\pi):=\mathtt{Dir}(\pi|\hat{\alpha})$ のKLダイバージェンスを計算する。

\begin{align}
\mathtt{KL}[q||p]
 &= - \mathtt{H}[q] - \langle \ln p \rangle_{q(\pi)} \\
 &= - \mathtt{H}[\mathtt{Dir}(\pi|\hat{\alpha})] - \langle \ln \mathtt{Dir}(\pi|\alpha) \rangle_{\mathtt{Dir}(\pi|\hat{\alpha})} \\
\end{align}

第１項は、

\begin{align}
\mathtt{H}[\mathtt{Dir}(\pi|\hat{\alpha})]
 &= -\sum_{k=1}^K (\hat{\alpha}_k -1)(\psi(\hat{\alpha}_k) - \psi(\sum_{i=1}^K\hat{\alpha}_i)) - \ln C_D(\hat{\alpha}) \\
 \\
\end{align}

第２項は、

\begin{align}
\langle \ln \mathtt{Dir}(\pi|\alpha) \rangle_{\mathtt{Dir}(\pi|\hat{\alpha})}
 &= \langle \sum_{k=1}^{K} (\alpha_k -1)\ln \pi_k + \ln C_D(\alpha) \rangle_{\mathtt{Dir}(\pi|\hat{\alpha})} \\
 &= \sum_{k=1}^{K} (\alpha_k -1)\langle \ln \pi_k \rangle_{\mathtt{Dir}(\pi|\hat{\alpha})} + \ln C_D(\alpha) \\
 &= \sum_{k=1}^{K} (\alpha_k -1)(\psi(\hat{\alpha}_k) - \psi(\sum_{i=1}^K\hat{\alpha}_i)) + \ln C_D(\alpha) \\
\end{align}

ディリクレ分布は、カテゴリ分布、多項分布の共役事前分布

ガンマ分布(Gamma Distribution)

ガンマ分布は、制の実数$\lambda \in \mathbb{R}_{+}$を生成する確率分布。

\begin{align}
\mathtt{Gam}(\lambda|a, b) := C_G(a, b)\lambda^{a-1}e^{-b\lambda}
\end{align}

ただし、$a, b \in \mathbb{R}_{+}$
$C_G(a, b) := \frac{b^a}{\Gamma(a)}$

ガンマ分布の対数表記は、以下の通り。

\begin{align}
\ln \mathtt{Gam}(\lambda|a, b) := (a-1)\ln \lambda -b\lambda + \ln C_G(a, b)
\end{align}

ガンマ分布に関する期待値は、以下の通り。

\begin{align}
\langle \lambda \rangle &= \frac{a}{b} \\
\langle \ln \lambda \rangle &= \psi(a) - \ln b \\
\end{align}

ガンマ分布のエントロピー

\begin{align}
\mathtt{H}[\mathtt{Gam}(\lambda|a, b)]
 &= - \langle \ln \mathtt{Gam}(\lambda|a, b) \rangle \\
 &= - \langle (a-1)\ln \lambda -b\lambda - \ln C_G(a, b) \rangle \\
 &= -(a-1)\langle \ln \lambda \rangle +b \langle \lambda \rangle - \ln C_G(a, b)  \\
 &= -(a-1)(\psi(a) - \ln b) +b \frac{a}{b} - \ln C_G(a, b)  \\
 &= -(a-1)\psi(a) +(a-1) \ln b +a - \ln \frac{b^a}{\Gamma(a)}  \\
 &= -(a-1)\psi(a) -\ln b +a +a\ln b - \ln b^a + \ln \Gamma(a)  \\
 &= (1-a)\psi(a) -\ln b +a + \ln \Gamma(a)  \\
\end{align}

ガンマ分布のKLダイバージェンス

真の分布 $p(\lambda):=\mathtt{Gam}(\lambda|a, b)$と、近似分布（予測分布）$q(\lambda):=\mathtt{Gam}(\lambda|\hat{a}, \hat{b})$ のKLダイバージェンスを計算する。

\begin{align}
\mathtt{KL}[q||p]
 &= - \mathtt{H}[q] - \langle \ln p \rangle_{q(\pi)} \\
 &= - \mathtt{H}[\mathtt{Gam}(\lambda|\hat{a}, \hat{b})] - \langle \ln \mathtt{Gam}(\lambda|a, b) \rangle_{\mathtt{Gam}(\lambda|\hat{a}, \hat{b})} \\
\end{align}

第１項は、

\begin{align}
\mathtt{H}[\mathtt{Gam}(\lambda|\hat{a}, \hat{b})]
 &= -(\hat{a}-1)\psi(\hat{a}) -\ln \hat{b} -\hat{a} + \ln \Gamma(\hat{a})  \\
\end{align}

第２項は、

\begin{align}
\langle \ln \mathtt{Gam}(\lambda|a, b) \rangle_{\mathtt{Gam}(\lambda|\hat{a}, \hat{b})}
 &= (a-1)\langle \ln \lambda \rangle_{\mathtt{Gam}(\lambda|\hat{a}, \hat{b})} -b \langle \lambda \rangle_{\mathtt{Gam}(\lambda|\hat{a}, \hat{b})} + \ln C_G(a, b)  \\
 &= (a-1)(\psi(\hat{a}) - \ln \hat{b}) -b \frac{\hat{a}}{\hat{b}} + \ln C_G(a, b)  \\
\end{align}

ガンマ分布は、ポアソン分布のパラメータ$\lambda$ に対する共役分布
1次元ガウス分布の精度パラメータ（分散の逆数）に対する共役分布でもある
ガンマ分布を、パラメータ$b$の逆数$\theta := \frac{1}{b}$ を、パラメータとして表現されることもある点に注意する

１次元ガウス分布(Gaussian Distribution)

もっとも重要な役割を持つ連続分布。

\begin{align}
\cal{N}(x|\mu, \sigma^2) := \frac{1}{\sqrt{2\pi\sigma^2}} \mathrm{exp}\{-\frac{(x-\mu)^2}{2\sigma^2}\}
\end{align}

$\mu \in \mathbb{R}$ は、平均パラメータ
$\sigma^2 \in \mathbb{R}_{+}$ は、分散パラメータ

ガウス分布の対数表記は、以下の通り。

\begin{align}
\ln \cal{N}(x|\mu, \sigma^2) 
 &= \ln \frac{1}{\sqrt{2\pi\sigma^2}} \mathrm{exp}\{-\frac{(x-\mu)^2}{2\sigma^2}\} \\
 &= -\frac{(x-\mu)^2}{2\sigma^2} + \ln 1 - \ln \sqrt{2\pi \sigma^2} \\
 &= -\frac{(x-\mu)^2}{2\sigma^2} - \frac{1}{2}\ln 2\pi \sigma^2 \\
 &= -\frac{1}{2}\{\frac{(x-\mu)^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
\end{align}

特に、対数をとった式（右辺）が、上に凸の２次関数
ガウス分布を使った推論計算の理解に役立つ

ガウス分布に関する期待値は、以下の通り。

\begin{align}
\langle x \rangle &= \mu \\
\langle x^2 \rangle &= \mu^2 + \sigma^2 \\
\end{align}

ガウス分布のエントロピー

\begin{align}
\mathtt{H}[\cal{N}(x|\mu, \sigma^2)]
 &= - \langle \ln \cal{N}(x|\mu, \sigma^2) \rangle \\
 &= - \langle -\frac{1}{2}\{\frac{(x-\mu)^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \rangle \\
 &= - \langle -\frac{1}{2}\{\frac{x^2 - 2x\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \rangle \\
 &= \frac{1}{2}\{\frac{\langle x^2 \rangle - 2 \langle x \rangle\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
 &= \frac{1}{2}\{\frac{(\mu^2 + \sigma^2) - 2 \mu \mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
 &= \frac{1}{2}\{\frac{(\sigma^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
 &= \frac{1}{2}\{1 + \ln\sigma^2 + \ln 2\pi \} \\
\end{align}

ガウス分布のKLダイバージェンス

真の分布 $p(x):=\cal{N}(x|\mu, \sigma^2)$と、近似分布（予測分布）$q(x):=\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)$ のKLダイバージェンスを計算する。

\begin{align}
\mathtt{KL}[q||p]
 &= - \mathtt{H}[q] - \langle \ln p \rangle_{q(\pi)} \\
 &= - \mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)] - \langle \ln \cal{N}(x|\mu, \sigma^2) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} \\
\end{align}

第１項は、

\begin{align}
\mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)]
 &= \frac{1}{2}\{1 + \ln\hat{\sigma}^2 + \ln 2\pi \} \\
\end{align}

第２項は、

\begin{align}
\langle \ln \cal{N}(x|\mu, \sigma^2) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)}
 &= \langle -\frac{1}{2}\{\frac{(x-\mu)^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} \\
 &= \langle -\frac{1}{2}\{\frac{x^2 - 2x\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} \\
 &= -\frac{1}{2}\{\frac{\langle x^2 \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} - 2\langle x \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
 &= -\frac{1}{2}\{\frac{\hat{\mu}^2 + \hat{\sigma}^2 - 2\hat{\mu}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
\end{align}

第１項と第２項を合わせると

\begin{align}
\mathtt{KL}[q||p]
 &= - \mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)] - \langle \ln \cal{N}(x|\mu, \sigma^2) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} \\
 &= - \frac{1}{2}\{1 + \ln\hat{\sigma}^2 + \ln 2\pi \} - (-\frac{1}{2}\{\frac{\hat{\mu}^2 + \hat{\sigma}^2 - 2\hat{\mu}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} ) \\
 &= - \frac{1}{2}\{1 + \ln\hat{\sigma}^2 + \ln 2\pi \} +\frac{1}{2}\{\frac{\hat{\mu}^2 + \hat{\sigma}^2 - 2\hat{\mu}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
 &= \frac{1}{2}\{-1 - \ln\hat{\sigma}^2 - \ln 2\pi + \frac{\hat{\mu}^2 + \hat{\sigma}^2 - 2\hat{\mu}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
 &= \frac{1}{2}\{-1 - \ln\hat{\sigma}^2 + \frac{(\hat{\mu} - \mu)^2 + \hat{\sigma}^2}{\sigma^2} + \ln\sigma^2 \} \\
 &= \frac{1}{2}\{\frac{(\hat{\mu} - \mu)^2 + \hat{\sigma}^2}{\sigma^2} + \ln\frac{\sigma^2}{\hat{\sigma}^2} -1 \} \\

\end{align}

多次元ガウス分布(Multivariate Gaussian Distribution)

１次元ガウス分布を、$D$次元に拡張した確率分布。
ベクトル$x \in \mathbb{R}^D$ を生成する確率分布。

\begin{align}
\cal{N}(x|\mu, \mathbf{\Sigma}) := \frac{1}{\sqrt{(2\pi)^D |\mathbf{\Sigma}|}} \mathrm{exp}\{-\frac{1}{2}(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu)\}
\end{align}

$\mu \in \mathbb{R}^D$ は、平均パラメータ
$\mathbf{\Sigma} \in Matrix(D, D)$は、共分散行列（$D$次元正方行列）パラメータ
- 特に、$\mathbf{\Sigma}$ は、正定値行列である必要がある
- つまり、$\mathbf{\Sigma}$ は、実対称行列であり、$\forall y \in \mathbb{R}^D$ に対して、$y^{\mathsf{T}} \mathbf{\Sigma} y > 0$

多次元ガウス分布の対数表記は、以下の通り。

\begin{align}
\ln \cal{N}(x|\mu, \mathbf{\Sigma})
 &= \ln \frac{1}{\sqrt{(2\pi)^D |\mathbf{\Sigma}|}} \mathrm{exp}\{-\frac{1}{2}(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu)\} \\
 &= \ln \frac{1}{\sqrt{(2\pi)^D |\mathbf{\Sigma}|}} + \ln \mathrm{exp}\{-\frac{1}{2}(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu)\} \\
 &= -\frac{1}{2} \ln \{(2\pi)^D |\mathbf{\Sigma}|\} + \{-\frac{1}{2}(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu)\} \\
 &= -\frac{1}{2} \{\ln \{(2\pi)^D |\mathbf{\Sigma}|\} + (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \} \\
 &= -\frac{1}{2} \{(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\end{align}

一般的に、$D$次元ガウス分布は、単純に1次元ガウス分布をD個掛け合わせた分布とは異なる。
多次元ガウス分布では、$\mathbf{\Sigma}$ の設定の仕方により、異なる次元同士の相関を表現できる。
$\mathbf{\Sigma}$ が、対角行列（各成分の確率変数が互いに独立）の場合は、$D$個の独立した1次元ガウス分布に分解できる。

$\mathbf{\Sigma}$ が対角行列のとき、

\begin{align}
\mathbf{\Sigma} = \left(
    \begin{array}{ccccc}
      \sigma_{1}^2 & \cdots & 0 & \cdots & 0 \\
      \vdots & \ddots & \vdots & \ddots & \vdots  \\
      0 & \cdots & \sigma_{d}^2 & \cdots & 0 \\
      \vdots & \ddots & \vdots & \ddots & \vdots  \\
      0 & \cdots  & 0 & \cdots & \sigma_{D}^2
    \end{array}
  \right)
\end{align}

のように書ける。

逆行列は、各成分の逆数をとればよいので、

\begin{align}
 \mathbf{\Sigma}^{-1} = \left(
    \begin{array}{ccccc}
      \frac{1}{\sigma_{1}^2} & \cdots & 0 & \cdots & 0 \\
      \vdots & \ddots & \vdots & \ddots & \vdots  \\
      0 & \cdots & \frac{1}{\sigma_{d}^2} & \cdots & 0 \\
      \vdots & \ddots & \vdots & \ddots & \vdots  \\
      0 & \cdots  & 0 & \cdots & \frac{1}{\sigma_{D}^2}
    \end{array}
  \right)
\end{align}

分散行列の行列式の対数は、

\begin{align}
 \ln |\mathbf{\Sigma}|
 &= \ln \prod_{d=1}^D \sigma_{d}^2 \\
 &= \sum_{d=1}^D \ln \sigma_{d}^2 \\
\end{align}

$\mathbf{\Sigma}$ が、対角行列の場合の対数表記は、以下の通り。

\begin{align}
\ln \cal{N}(x|\mu, \mathbf{\Sigma})
 &= -\frac{1}{2} \{(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
 &= -\frac{1}{2} \{\sum_{d=1}^{D}(x_d-\mu_d)\frac{1}{\sigma_{d}^2}(x_d-\mu_d) + \sum_{d=1}^{D} \ln \sigma_{d}^2 + D\ln 2\pi \} \\
 &= -\frac{1}{2} \{\sum_{d=1}^{D}\{\frac{(x_d-\mu_d)^2}{\sigma_{d}^2} + \ln \sigma_{d}^2 + \ln 2\pi \} \} \\
 &= \{\sum_{d=1}^{D}-\frac{1}{2} \{\frac{(x_d-\mu_d)^2}{\sigma_{d}^2} + \ln \sigma_{d}^2 + \ln 2\pi \} \} \\
 &= \sum_{d=1}^{D} ln \cal{N}(x_d|\mu_d, \sigma_d^2) \\
 &= ln \prod_{d=1}^{D} \cal{N}(x_d|\mu_d, \sigma_d^2) \\
\end{align}

つまり、$\mathbf{\Sigma}$ が、対角行列の場合は、

\begin{align}
\cal{N}(x|\mu, \mathbf{\Sigma})
 &= \prod_{d=1}^{D} \cal{N}(x_d|\mu_d, \sigma_d^2) \\
\end{align}

となり、$D$次元の各成分に対する1次元ガウス分布の積で表せられる。

$D$次元ガウス分布に関する期待値は、以下の通り。

\begin{align}
\langle x \rangle &= \mu \\
\langle xx^{\mathsf{T}} \rangle &= \mu\mu^{\mathsf{T}} + \mathbf{\Sigma} \\
\end{align}

多次元ガウス分布のエントロピー

\begin{align}
\mathtt{H}[\cal{N}(x|\mu, \Sigma)]
 &= - \langle \ln \cal{N}(x|\mu, \Sigma) \rangle \\
 &= - \langle - \frac{1}{2} \{(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \rangle \\
 &= \langle \frac{1}{2} \{(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \rangle \\
 &= \frac{1}{2} \{\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\end{align}

第１項の期待値$\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle$ は、

\begin{align}
\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle 
 &= \langle \mathrm{tr}(\mathbf{\Sigma^{-1}}(x-\mu)(x-\mu)^{\mathsf{T}}) \rangle  \\
 &= \mathrm{tr}(\langle \mathbf{\Sigma^{-1}}(x-\mu)(x-\mu)^{\mathsf{T}} \rangle) \\
 &= \mathrm{tr}(\mathbf{\Sigma^{-1}} \langle (x-\mu)(x-\mu)^{\mathsf{T}} \rangle) \\
 &= \mathrm{tr}(\mathbf{\Sigma^{-1}} \mathbf{\Sigma}) \\
 &= \mathrm{tr}(I_D) \\
 &= D
\end{align}

$B \in Matrix(n, n)$、$y \in \mathbb{R}^n$ に対して、$y^{\mathsf{T}}By = \mathrm{tr}(Byy^{\mathsf{T}}) = \mathrm{tr}(yy^{\mathsf{T}}B^{\mathsf{T}})$ を適用する
- ただし、$\mathrm{tr}(A)$ は、行列$A$ のトレース（対角成分の和）とする
- 特に、$B$ が、対称行列($B^{\mathsf{T}} = B$)のとき、$y^{\mathsf{T}}By = \mathrm{tr}(Byy^{\mathsf{T}}) = \mathrm{tr}(yy^{\mathsf{T}}B)$
- $B := \Sigma^{-1}$、$y := x - \mu$、$n := D$
ただし、行列の期待値を、$\langle A(x) \rangle := [\langle a_{ij}(x) \rangle]_{i,j}$ と拡張（定義）しておく
- 別の表記では、$\langle [a_{ij}(x)] \rangle := [\langle a_{ij}(x) \rangle]$ と定義
- つまり、行列の期待値を、各成分の期待値の行列として定義する。
- 行列に拡張した期待値に対して、$\langle BA(x) \rangle = B\langle A(x) \rangle$ を、適用する（$B \in Matrix(n, n)$）
- 同様に、$\langle A(x)B \rangle = \langle A(x) \rangle B$ も成り立つ
- $B := \Sigma^{-1}$、$A(x) := (x-\mu)(x-\mu)^{\mathsf{T}}$、$n := D$

結局、エントロピーは、以下のようになる。

\begin{align}
\mathtt{H}[\cal{N}(x|\mu, \Sigma)]
 &= \frac{1}{2} \{\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\mathtt{H}[\cal{N}(x|\mu, \Sigma)]
 &= \frac{1}{2} \{D + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
 &= \frac{1}{2} \{\ln |\mathbf{\Sigma}| + D(\ln 2\pi + 1) \} \\
\end{align}

多次元ガウス分布のKLダイバージェンス

真の分布 $p(x):=\cal{N}(x|\mu, \mathbf{\Sigma})$と、近似分布（予測分布）$q(x):=\cal{N}(x|\hat{\mu}, \mathbf{\hat{\Sigma}})$ のKLダイバージェンスを計算する。

\begin{align}
\mathtt{KL}[q||p]
 &= - \mathtt{H}[q] - \langle \ln p \rangle_{q(\pi)} \\
 &= - \mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\Sigma})] - \langle \ln \cal{N}(x|\mu, \Sigma) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})} \\
\end{align}

第１項は、

\begin{align}
\mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\Sigma})]
 &= \frac{1}{2} \{\ln |\mathbf{\hat{\Sigma}}| + D(\ln 2\pi + 1) \} \\
\end{align}

第２項は、

\begin{align}
\langle \ln \cal{N}(x|\mu, \mathbf{\Sigma}) \rangle_{\cal{N}(x|\hat{\mu}, \mathbf{\hat{\Sigma}})}
 &= - \frac{1}{2} \{\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle_{\cal{N}(x|\hat{\mu}, \mathbf{\hat{\Sigma}})} + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\end{align}

$\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle_{\cal{N}(x|\hat{\mu}, \mathbf{\hat{\Sigma}})}$ は、以下のようになる。

\begin{align}
\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})}
 &= \langle \mathrm{tr}( (x-\mu)(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}} )\rangle_{q(x)} \\
 &= \mathrm{tr}( \langle (x-\mu)(x-\mu)^{\mathsf{T}} \rangle_{q(x)} \mathbf{\Sigma^{-1}}) \\
 &= \mathrm{tr}( \langle (x-\mu)(x^{\mathsf{T}}-\mu^{\mathsf{T}}) \rangle_{q(x)} \mathbf{\Sigma^{-1}}) \\
 &= \mathrm{tr}( \langle xx^{\mathsf{T}} - x\mu^{\mathsf{T}} - \mu x^{\mathsf{T}} + \mu\mu^{\mathsf{T}} \rangle_{q(x)} \mathbf{\Sigma^{-1}}) \\
 &= \mathrm{tr}( \{ \langle xx^{\mathsf{T}} \rangle_{q(x)} - \langle x \rangle_{q(x)}\mu^{\mathsf{T}} - \mu \langle x^{\mathsf{T}} \rangle_{q(x)} + \mu\mu^{\mathsf{T}} \}\mathbf{\Sigma^{-1}}) \\
 &= \mathrm{tr}( \{ \hat{\mu}\hat{\mu}^{\mathsf{T}} + \mathbf{\hat{\Sigma}} - \hat{\mu}\mu^{\mathsf{T}} - \mu \hat{\mu}^{\mathsf{T}} + \mu\mu^{\mathsf{T}} \} \mathbf{\Sigma^{-1}}) \\
 &= \mathrm{tr}( \{ (\hat{\mu} - \mu)(\hat{\mu}^{\mathsf{T}} - \mu^{\mathsf{T}}) + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) \\
 &= \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) \\
\end{align}

整理すると、以下のようになる。

\begin{align}
\langle \ln \cal{N}(x|\mu, \Sigma) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})}
 &= - \frac{1}{2} \{\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})} + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
 &= - \frac{1}{2} \{ \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}})  + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\end{align}

KLダイバージェンスを具体的に計算すると、以下のようになる。

\begin{align}
\mathtt{KL}[q||p]
 &= - \mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\Sigma})] - \langle \ln \cal{N}(x|\mu, \Sigma) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})} \\
 &= - \frac{1}{2} \{\ln |\mathbf{\hat{\Sigma}}| + D(\ln 2\pi + 1) \} - [- \frac{1}{2} \{ \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \hat{\Sigma} \} \mathbf{\Sigma^{-1}})  + \ln |\mathbf{\Sigma}| + D\ln 2\pi \}] \\
 &= - \frac{1}{2} \{ \ln |\mathbf{\hat{\Sigma}}| + D(\ln 2\pi + 1) - [ \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}})  + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} ] \} \\
 &= - \frac{1}{2} \{ \ln |\mathbf{\hat{\Sigma}}| + D(\ln 2\pi + 1) - \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}})  - \ln |\mathbf{\Sigma}| - D\ln 2\pi \} \} \\
 &= - \frac{1}{2} \{ - \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) + \ln |\mathbf{\hat{\Sigma}}| + D\ln 2\pi + D - \ln |\mathbf{\Sigma}| - D\ln 2\pi \} \} \\
 &= - \frac{1}{2} \{  - \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) + \ln \frac{|\mathbf{\hat{\Sigma}}|}{|\mathbf{\Sigma}|} + D \} \} \\
 &= \frac{1}{2} \{\mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) - \ln \frac{|\mathbf{\hat{\Sigma}}|}{|\mathbf{\Sigma}}| - D \} \} \\
 &= \frac{1}{2} \{\mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) + \ln \frac{|\mathbf{\Sigma}|}{|\mathbf{\hat{\Sigma}}|} - D \} \} \\
\end{align}

ウィシャート分布(Wishart Distribution)

$D \times D$ の正定値行列$\mathbf{\Lambda}$を生成する確率分布。
この分布は、多次元ガウス分布の共分散行列の逆行列である精度行列（precision matrix）を生成するための確率分布として使われている。

\begin{align}
\cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
 := C_{\cal{W}}(\nu, \mathbf{W})|\mathbf{\Lambda}|^{\frac{\nu-D-1}{2}} \mathrm{exp}\{-\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda})\}
\end{align}

ただし、$\nu$ は、自由度（degree of freedom）パラメータ
$\nu > D - 1$ を満たすように、$\nu$ を設定する必要がある
$\mathbf{W}$ は、正定値行列のパラメータ

ウィシャート分布の対数表記は、以下の通り。

\begin{align}
\ln \cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
 &= \ln C_{\cal{W}}(\nu, \mathbf{W})|\mathbf{\Lambda}|^{\frac{\nu-D-1}{2}} \mathrm{exp}\{-\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda})\} \\
 &= \ln C_{\cal{W}}(\nu, \mathbf{W}) + \ln |\mathbf{\Lambda}|^{\frac{\nu-D-1}{2}} + \ln \mathrm{exp}\{-\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda})\} \\
 &= \frac{\nu-D-1}{2}\ln |\mathbf{\Lambda}| -\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda}) + \ln C_{\cal{W}}(\nu, \mathbf{W})
\end{align}

ここで、ウィシャート分布の正規化項$C_{\cal{W}}(\nu, \mathbf{W})$は、以下のように対数表記されます。

\begin{align}
\ln C_{\cal{W}}(\nu, \mathbf{W})
 &= -\frac{\nu}{2}\ln|\mathbf{W}| -\frac{\nu D}{2}\ln 2-\frac{D(D-1)}{4}\ln \pi - \sum_{d=1}^D \ln \Gamma(\frac{\nu + 1 - d}{2}) \\
\end{align}

ウィシャート分布を、1次元にするとガンマ分布に一致する。
$D:=1$とおく(つまり、$\mathbf{\Lambda}, \mathbf{W} \in \mathbb{R}$)

\begin{align}
\ln \cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
 &= \frac{\nu-D-1}{2}\ln |\mathbf{\Lambda}| -\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda}) + \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
 &= \frac{\nu-1-1}{2}\ln \mathbf{\Lambda} -\frac{1}{2}\mathrm{tr}(\frac{\mathbf{\Lambda}}{\mathbf{W}}) + \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
 &= \frac{\nu-2}{2}\ln \mathbf{\Lambda} -\frac{\mathbf{\Lambda}}{2\mathbf{W}} + \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
\end{align}

ここで、$a:=\frac{\nu}{2}$、$b:=\frac{1}{2\mathbf{W}}$ とすると、

\begin{align}
\ln \cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
 &= \frac{\nu-2}{2}\ln \mathbf{\Lambda} -\frac{\mathbf{\Lambda}}{2\mathbf{W}} + \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
 &= \frac{\nu-2}{2}\ln \mathbf{\Lambda} -\frac{\mathbf{\Lambda}}{2\mathbf{W}} -\frac{\nu}{2}\ln\mathbf{W} -\frac{\nu}{2}\ln 2 - \ln \Gamma(\frac{\nu}{2}) \\
 &= \frac{2a-2}{2}\ln \mathbf{\Lambda} -b\mathbf{\Lambda} -a\ln \frac{1}{2b} -a\ln 2 - \ln \Gamma(a) \\
 &= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} +a\ln 2b -a\ln 2 - \ln \Gamma(a) \\
 &= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} +a\ln 2 + a\ln b -a\ln 2 - \ln \Gamma(a) \\
 &= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} + a\ln b- \ln \Gamma(a) \\
 &= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} + \ln b^a - \ln \Gamma(a) \\
 &= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} + \ln \frac{b^a}{\Gamma(a)} \\
 &= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} + \ln C_G(a, b) \\
 &= \ln \mathtt{Gam}(\mathbf{\Lambda}|a, b) \\
 &= \ln \mathtt{Gam}(\mathbf{\Lambda}|\frac{\nu}{2}, \frac{1}{2w}) \\
\end{align}

つまり、

\begin{align}
\cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
 &= \mathtt{Gam}(\mathbf{\Lambda}|\frac{\nu}{2}, \frac{1}{2w})
\end{align}

$D:=1, a:=\frac{\nu}{2}$、$b:=\frac{1}{2\mathbf{W}}$ と置くと、ウィシャート分布が、ガンマ分布になる。
つまり、ウィシャート分布は、ガンマ分布を拡張した確率分布（正の実数から正定値行列へ拡張した分布）。

ウィシャート分布に関する期待値は、以下の通り。

\begin{align}
\langle \mathbf{\Lambda} \rangle &= \nu \mathbf{W} \\
\langle \ln |\mathbf{\Lambda}| \rangle &= \sum_{d=1}^D \psi(\frac{\nu + 1 - d}{2}) +D\ln 2 + \ln |\mathbf{W}| \\
\end{align}

ウィシャート分布のエントロピー

\begin{align}
\mathtt{H}[\cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})]
 &= - \langle \ln \cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W}) \rangle \\
 &= \langle - \frac{\nu-D-1}{2}\ln |\mathbf{\Lambda}| -\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda}) + \ln C_{\cal{W}}(\nu, \mathbf{W}) \rangle \\
 &= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1} \langle \mathbf{\Lambda} \rangle) - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
 &= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1} (\nu \mathbf{W})) - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
 &= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{1}{2}\nu \cdot \mathrm{tr}(\mathbf{W}^{-1} \mathbf{W}) - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
 &= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{\nu}{2}\mathrm{tr}(I_D) - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
 &= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{\nu D}{2} - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
\end{align}

ウィシャート分布は、多次元ガウス分布の精度行列（共分散行列パラメータの逆行列・$\mathbf{\Sigma}^{-1}$）に対する共役事前分布になることが知られている。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

ベイズ推論の勉強用ノート（３）ー 連続確率分布

目的

関連

連続確率分布

ベータ分布(Beta Distribution)

ベータ分布のエントロピー

ディリクレ分布(Dirichlet Distribution)

ディリクレ分布のエントロピー

ディリクレ分布間のKLダイバージェンス

ガンマ分布(Gamma Distribution)

ガンマ分布のエントロピー

ガンマ分布のKLダイバージェンス

１次元ガウス分布(Gaussian Distribution)

ガウス分布のエントロピー

ガウス分布のKLダイバージェンス

多次元ガウス分布(Multivariate Gaussian Distribution)

多次元ガウス分布のエントロピー

多次元ガウス分布のKLダイバージェンス

ウィシャート分布(Wishart Distribution)

ウィシャート分布のエントロピー

ベイズ推論の勉強用ノート（３）ー連続確率分布