目的
ベイズ推論による機械学習入門の勉強用のノート。
式を後で参照するために残しておく。
関連
ベイズ推論の勉強用ノート(1)ー 基本的な定義
ベイズ推論の勉強用ノート(2)ー 離散確率分布
連続確率分布
ベータ分布(Beta Distribution)
\begin{align}
\mathtt{Beta}(\mu|a, b) := C_B(a, b)\mu^{a-1}(\mu-1)^{b-1}
\end{align}
- ここで、$C_B(a, b) := \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}$
- $\Gamma(\cdot)$ は、ガンマ関数
- $C_B(a, b)$ は、正規化項であり、多くの場合では計算する必要がない
ベータ分布の対数表記は以下の通り。
\begin{align}
\ln \mathtt{Beta}(\mu|a, b) = (a-1)\ln \mu + (b-1)\ln (1-\mu) + \ln C_B(a, b)
\end{align}
ベータ分布に関する期待値は、以下の通り。
\begin{align}
\langle \mu \rangle &= \frac{a}{a+b} \\
\langle \ln \mu \rangle &= \psi(a) - \psi(a+b) \\
\langle \ln (1-\mu) \rangle &= \psi(b) - \psi(a+b) \\
\end{align}
ここで、$\psi(\cdot)$ は、ディガンマ関数(digamma function)
ベータ分布のエントロピー
\begin{align}
\mathtt{H}[\mathtt{Beta}(\mu|a, b)]
&= - \langle \ln \mathtt{Beta}(\mu|a, b) \\
&= - \langle (a-1)\ln \mu + (b-1)\ln (1-\mu) + \ln C_B(a, b) \rangle \\
&= - (a-1)\langle \ln \mu \rangle - (b-1)\langle \ln (1-\mu) \rangle - \ln C_B(a, b) \\
&= - (a-1)(\psi(a) - \psi(a+b)) - (b-1)(\psi(b) - \psi(a+b)) - \ln C_B(a, b) \\
&= - (a-1)\psi(a) + (a-1)\psi(a+b) - (b-1)\psi(b) + (b-1)\psi(a+b) - \ln C_B(a, b) \\
&= - (a-1)\psi(a) - (b-1)\psi(b) + (a+ b-2)\psi(a+b) - \ln C_B(a, b) \\
\end{align}
- ベータ 分布 は ベルヌーイ分布、二項分布の平均パラメータμに対する共役事前分布
ディリクレ分布(Dirichlet Distribution)
ベータ分布を多次元に拡張した確率分布。
$\pi = (\pi_1, ..., \pi_K)^{\mathsf{T}} \in (0, 1)^K$ かつ $\sum_{k=1}^{K}\pi_k = 1$を満たす$\pi$を生成する確率分布。
\begin{align}
\mathtt{Dir}(\pi|\alpha) := C_D(\alpha)\prod_{k=1}^{K} \pi_k^{\alpha_k -1}
\end{align}
- ここで、$\alpha = (\alpha_1, ..., \alpha_K) \in \mathbb{R}_{+}^{K}$
- $\mathbb{R}_{+}$ を、正の実数の集合とする
- $K:=2$、$\pi_2 := 1-\pi_1$、$\alpha_1:=a$、$alpha_2:=b$ とすれば、ベータ分布に一致する
ディリクレ分布の対数表記は、以下の通り。
\begin{align}
\ln \mathtt{Dir}(\pi|\alpha) = \sum_{k=1}^{K} (\alpha_k -1)\ln \pi_k + \ln C_D(\alpha)
\end{align}
ディリクレ分布に関する期待値は、以下の通り。
\begin{align}
\langle \pi_k \rangle &= \frac{\alpha_k}{\sum_{i=1}^K \alpha_i} \\
\langle \ln \pi_k \rangle &= \psi(\alpha_k) - \psi(\sum_{i=1}^K \alpha_i) \\
\end{align}
ディリクレ分布のエントロピー
\begin{align}
\mathtt{H}[\mathtt{Dir}(\pi|\alpha)]
&= - \langle \ln \mathtt{Dir}(\pi|\alpha) \rangle \\
&= - \langle \sum_{k=1}^K (\alpha_k-1)\ln \pi_k + \ln C_D(\alpha)\rangle \\
&= -\sum_{k=1}^K (\alpha_k -1) \langle \ln \pi_k \rangle - \ln C_D(\alpha) \\
&= -\sum_{k=1}^K (\alpha_k -1)(\psi(\alpha_k) - \psi(\sum_{i=1}^K\alpha_i)) - \ln C_D(\alpha) \\
\end{align}
ディリクレ分布間のKLダイバージェンス
真の分布 $p(\pi):=\mathtt{Dir}(\pi|\alpha)$と、近似分布(予測分布)$q(\pi):=\mathtt{Dir}(\pi|\hat{\alpha})$ のKLダイバージェンスを計算する。
\begin{align}
\mathtt{KL}[q||p]
&= - \mathtt{H}[q] - \langle \ln p \rangle_{q(\pi)} \\
&= - \mathtt{H}[\mathtt{Dir}(\pi|\hat{\alpha})] - \langle \ln \mathtt{Dir}(\pi|\alpha) \rangle_{\mathtt{Dir}(\pi|\hat{\alpha})} \\
\end{align}
第1項は、
\begin{align}
\mathtt{H}[\mathtt{Dir}(\pi|\hat{\alpha})]
&= -\sum_{k=1}^K (\hat{\alpha}_k -1)(\psi(\hat{\alpha}_k) - \psi(\sum_{i=1}^K\hat{\alpha}_i)) - \ln C_D(\hat{\alpha}) \\
\\
\end{align}
第2項は、
\begin{align}
\langle \ln \mathtt{Dir}(\pi|\alpha) \rangle_{\mathtt{Dir}(\pi|\hat{\alpha})}
&= \langle \sum_{k=1}^{K} (\alpha_k -1)\ln \pi_k + \ln C_D(\alpha) \rangle_{\mathtt{Dir}(\pi|\hat{\alpha})} \\
&= \sum_{k=1}^{K} (\alpha_k -1)\langle \ln \pi_k \rangle_{\mathtt{Dir}(\pi|\hat{\alpha})} + \ln C_D(\alpha) \\
&= \sum_{k=1}^{K} (\alpha_k -1)(\psi(\hat{\alpha}_k) - \psi(\sum_{i=1}^K\hat{\alpha}_i)) + \ln C_D(\alpha) \\
\end{align}
ディリクレ分布は、カテゴリ分布、多項分布の共役事前分布
ガンマ分布(Gamma Distribution)
ガンマ分布は、制の実数$\lambda \in \mathbb{R}_{+}$を生成する確率分布。
\begin{align}
\mathtt{Gam}(\lambda|a, b) := C_G(a, b)\lambda^{a-1}e^{-b\lambda}
\end{align}
- ただし、$a, b \in \mathbb{R}_{+}$
- $C_G(a, b) := \frac{b^a}{\Gamma(a)}$
ガンマ分布の対数表記は、以下の通り。
\begin{align}
\ln \mathtt{Gam}(\lambda|a, b) := (a-1)\ln \lambda -b\lambda + \ln C_G(a, b)
\end{align}
ガンマ分布に関する期待値は、以下の通り。
\begin{align}
\langle \lambda \rangle &= \frac{a}{b} \\
\langle \ln \lambda \rangle &= \psi(a) - \ln b \\
\end{align}
ガンマ分布のエントロピー
\begin{align}
\mathtt{H}[\mathtt{Gam}(\lambda|a, b)]
&= - \langle \ln \mathtt{Gam}(\lambda|a, b) \rangle \\
&= - \langle (a-1)\ln \lambda -b\lambda - \ln C_G(a, b) \rangle \\
&= -(a-1)\langle \ln \lambda \rangle +b \langle \lambda \rangle - \ln C_G(a, b) \\
&= -(a-1)(\psi(a) - \ln b) +b \frac{a}{b} - \ln C_G(a, b) \\
&= -(a-1)\psi(a) +(a-1) \ln b +a - \ln \frac{b^a}{\Gamma(a)} \\
&= -(a-1)\psi(a) -\ln b +a +a\ln b - \ln b^a + \ln \Gamma(a) \\
&= (1-a)\psi(a) -\ln b +a + \ln \Gamma(a) \\
\end{align}
ガンマ分布のKLダイバージェンス
真の分布 $p(\lambda):=\mathtt{Gam}(\lambda|a, b)$と、近似分布(予測分布)$q(\lambda):=\mathtt{Gam}(\lambda|\hat{a}, \hat{b})$ のKLダイバージェンスを計算する。
\begin{align}
\mathtt{KL}[q||p]
&= - \mathtt{H}[q] - \langle \ln p \rangle_{q(\pi)} \\
&= - \mathtt{H}[\mathtt{Gam}(\lambda|\hat{a}, \hat{b})] - \langle \ln \mathtt{Gam}(\lambda|a, b) \rangle_{\mathtt{Gam}(\lambda|\hat{a}, \hat{b})} \\
\end{align}
第1項は、
\begin{align}
\mathtt{H}[\mathtt{Gam}(\lambda|\hat{a}, \hat{b})]
&= -(\hat{a}-1)\psi(\hat{a}) -\ln \hat{b} -\hat{a} + \ln \Gamma(\hat{a}) \\
\end{align}
第2項は、
\begin{align}
\langle \ln \mathtt{Gam}(\lambda|a, b) \rangle_{\mathtt{Gam}(\lambda|\hat{a}, \hat{b})}
&= (a-1)\langle \ln \lambda \rangle_{\mathtt{Gam}(\lambda|\hat{a}, \hat{b})} -b \langle \lambda \rangle_{\mathtt{Gam}(\lambda|\hat{a}, \hat{b})} + \ln C_G(a, b) \\
&= (a-1)(\psi(\hat{a}) - \ln \hat{b}) -b \frac{\hat{a}}{\hat{b}} + \ln C_G(a, b) \\
\end{align}
- ガンマ分布は、ポアソン分布のパラメータ$\lambda$ に対する共役分布
- 1次元ガウス分布の精度パラメータ(分散の逆数)に対する共役分布でもある
- ガンマ分布を、パラメータ$b$の逆数$\theta := \frac{1}{b}$ を、パラメータとして表現されることもある点に注意する
1次元ガウス分布(Gaussian Distribution)
もっとも重要な役割を持つ連続分布。
\begin{align}
\cal{N}(x|\mu, \sigma^2) := \frac{1}{\sqrt{2\pi\sigma^2}} \mathrm{exp}\{-\frac{(x-\mu)^2}{2\sigma^2}\}
\end{align}
- $\mu \in \mathbb{R}$ は、平均パラメータ
- $\sigma^2 \in \mathbb{R}_{+}$ は、分散パラメータ
ガウス分布の対数表記は、以下の通り。
\begin{align}
\ln \cal{N}(x|\mu, \sigma^2)
&= \ln \frac{1}{\sqrt{2\pi\sigma^2}} \mathrm{exp}\{-\frac{(x-\mu)^2}{2\sigma^2}\} \\
&= -\frac{(x-\mu)^2}{2\sigma^2} + \ln 1 - \ln \sqrt{2\pi \sigma^2} \\
&= -\frac{(x-\mu)^2}{2\sigma^2} - \frac{1}{2}\ln 2\pi \sigma^2 \\
&= -\frac{1}{2}\{\frac{(x-\mu)^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
\end{align}
- 特に、対数をとった式(右辺)が、上に凸の2次関数
- ガウス分布を使った推論計算の理解に役立つ
ガウス分布に関する期待値は、以下の通り。
\begin{align}
\langle x \rangle &= \mu \\
\langle x^2 \rangle &= \mu^2 + \sigma^2 \\
\end{align}
ガウス分布のエントロピー
\begin{align}
\mathtt{H}[\cal{N}(x|\mu, \sigma^2)]
&= - \langle \ln \cal{N}(x|\mu, \sigma^2) \rangle \\
&= - \langle -\frac{1}{2}\{\frac{(x-\mu)^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \rangle \\
&= - \langle -\frac{1}{2}\{\frac{x^2 - 2x\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \rangle \\
&= \frac{1}{2}\{\frac{\langle x^2 \rangle - 2 \langle x \rangle\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
&= \frac{1}{2}\{\frac{(\mu^2 + \sigma^2) - 2 \mu \mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
&= \frac{1}{2}\{\frac{(\sigma^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
&= \frac{1}{2}\{1 + \ln\sigma^2 + \ln 2\pi \} \\
\end{align}
ガウス分布のKLダイバージェンス
真の分布 $p(x):=\cal{N}(x|\mu, \sigma^2)$と、近似分布(予測分布)$q(x):=\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)$ のKLダイバージェンスを計算する。
\begin{align}
\mathtt{KL}[q||p]
&= - \mathtt{H}[q] - \langle \ln p \rangle_{q(\pi)} \\
&= - \mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)] - \langle \ln \cal{N}(x|\mu, \sigma^2) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} \\
\end{align}
第1項は、
\begin{align}
\mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)]
&= \frac{1}{2}\{1 + \ln\hat{\sigma}^2 + \ln 2\pi \} \\
\end{align}
第2項は、
\begin{align}
\langle \ln \cal{N}(x|\mu, \sigma^2) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)}
&= \langle -\frac{1}{2}\{\frac{(x-\mu)^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} \\
&= \langle -\frac{1}{2}\{\frac{x^2 - 2x\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} \\
&= -\frac{1}{2}\{\frac{\langle x^2 \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} - 2\langle x \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
&= -\frac{1}{2}\{\frac{\hat{\mu}^2 + \hat{\sigma}^2 - 2\hat{\mu}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
\end{align}
第1項と第2項を合わせると
\begin{align}
\mathtt{KL}[q||p]
&= - \mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)] - \langle \ln \cal{N}(x|\mu, \sigma^2) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\sigma}^2)} \\
&= - \frac{1}{2}\{1 + \ln\hat{\sigma}^2 + \ln 2\pi \} - (-\frac{1}{2}\{\frac{\hat{\mu}^2 + \hat{\sigma}^2 - 2\hat{\mu}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} ) \\
&= - \frac{1}{2}\{1 + \ln\hat{\sigma}^2 + \ln 2\pi \} +\frac{1}{2}\{\frac{\hat{\mu}^2 + \hat{\sigma}^2 - 2\hat{\mu}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
&= \frac{1}{2}\{-1 - \ln\hat{\sigma}^2 - \ln 2\pi + \frac{\hat{\mu}^2 + \hat{\sigma}^2 - 2\hat{\mu}\mu + \mu^2}{\sigma^2} + \ln\sigma^2 + \ln 2\pi \} \\
&= \frac{1}{2}\{-1 - \ln\hat{\sigma}^2 + \frac{(\hat{\mu} - \mu)^2 + \hat{\sigma}^2}{\sigma^2} + \ln\sigma^2 \} \\
&= \frac{1}{2}\{\frac{(\hat{\mu} - \mu)^2 + \hat{\sigma}^2}{\sigma^2} + \ln\frac{\sigma^2}{\hat{\sigma}^2} -1 \} \\
\end{align}
多次元ガウス分布(Multivariate Gaussian Distribution)
1次元ガウス分布を、$D$次元に拡張した確率分布。
ベクトル$x \in \mathbb{R}^D$ を生成する確率分布。
\begin{align}
\cal{N}(x|\mu, \mathbf{\Sigma}) := \frac{1}{\sqrt{(2\pi)^D |\mathbf{\Sigma}|}} \mathrm{exp}\{-\frac{1}{2}(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu)\}
\end{align}
- $\mu \in \mathbb{R}^D$ は、平均パラメータ
- $\mathbf{\Sigma} \in Matrix(D, D)$は、共分散行列($D$次元正方行列)パラメータ
- 特に、$\mathbf{\Sigma}$ は、正定値行列である必要がある
- つまり、$\mathbf{\Sigma}$ は、実対称行列であり、$\forall y \in \mathbb{R}^D$ に対して、$y^{\mathsf{T}} \mathbf{\Sigma} y > 0$
多次元ガウス分布の対数表記は、以下の通り。
\begin{align}
\ln \cal{N}(x|\mu, \mathbf{\Sigma})
&= \ln \frac{1}{\sqrt{(2\pi)^D |\mathbf{\Sigma}|}} \mathrm{exp}\{-\frac{1}{2}(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu)\} \\
&= \ln \frac{1}{\sqrt{(2\pi)^D |\mathbf{\Sigma}|}} + \ln \mathrm{exp}\{-\frac{1}{2}(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu)\} \\
&= -\frac{1}{2} \ln \{(2\pi)^D |\mathbf{\Sigma}|\} + \{-\frac{1}{2}(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu)\} \\
&= -\frac{1}{2} \{\ln \{(2\pi)^D |\mathbf{\Sigma}|\} + (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \} \\
&= -\frac{1}{2} \{(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\end{align}
- 一般的に、$D$次元ガウス分布は、単純に1次元ガウス分布をD個掛け合わせた分布とは異なる。
- 多次元ガウス分布では、$\mathbf{\Sigma}$ の設定の仕方により、異なる次元同士の相関を表現できる。
- $\mathbf{\Sigma}$ が、対角行列(各成分の確率変数が互いに独立)の場合は、$D$個の独立した1次元ガウス分布に分解できる。
$\mathbf{\Sigma}$ が対角行列のとき、
\begin{align}
\mathbf{\Sigma} = \left(
\begin{array}{ccccc}
\sigma_{1}^2 & \cdots & 0 & \cdots & 0 \\
\vdots & \ddots & \vdots & \ddots & \vdots \\
0 & \cdots & \sigma_{d}^2 & \cdots & 0 \\
\vdots & \ddots & \vdots & \ddots & \vdots \\
0 & \cdots & 0 & \cdots & \sigma_{D}^2
\end{array}
\right)
\end{align}
のように書ける。
逆行列は、各成分の逆数をとればよいので、
\begin{align}
\mathbf{\Sigma}^{-1} = \left(
\begin{array}{ccccc}
\frac{1}{\sigma_{1}^2} & \cdots & 0 & \cdots & 0 \\
\vdots & \ddots & \vdots & \ddots & \vdots \\
0 & \cdots & \frac{1}{\sigma_{d}^2} & \cdots & 0 \\
\vdots & \ddots & \vdots & \ddots & \vdots \\
0 & \cdots & 0 & \cdots & \frac{1}{\sigma_{D}^2}
\end{array}
\right)
\end{align}
分散行列の行列式の対数は、
\begin{align}
\ln |\mathbf{\Sigma}|
&= \ln \prod_{d=1}^D \sigma_{d}^2 \\
&= \sum_{d=1}^D \ln \sigma_{d}^2 \\
\end{align}
$\mathbf{\Sigma}$ が、対角行列の場合の対数表記は、以下の通り。
\begin{align}
\ln \cal{N}(x|\mu, \mathbf{\Sigma})
&= -\frac{1}{2} \{(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
&= -\frac{1}{2} \{\sum_{d=1}^{D}(x_d-\mu_d)\frac{1}{\sigma_{d}^2}(x_d-\mu_d) + \sum_{d=1}^{D} \ln \sigma_{d}^2 + D\ln 2\pi \} \\
&= -\frac{1}{2} \{\sum_{d=1}^{D}\{\frac{(x_d-\mu_d)^2}{\sigma_{d}^2} + \ln \sigma_{d}^2 + \ln 2\pi \} \} \\
&= \{\sum_{d=1}^{D}-\frac{1}{2} \{\frac{(x_d-\mu_d)^2}{\sigma_{d}^2} + \ln \sigma_{d}^2 + \ln 2\pi \} \} \\
&= \sum_{d=1}^{D} ln \cal{N}(x_d|\mu_d, \sigma_d^2) \\
&= ln \prod_{d=1}^{D} \cal{N}(x_d|\mu_d, \sigma_d^2) \\
\end{align}
つまり、$\mathbf{\Sigma}$ が、対角行列の場合は、
\begin{align}
\cal{N}(x|\mu, \mathbf{\Sigma})
&= \prod_{d=1}^{D} \cal{N}(x_d|\mu_d, \sigma_d^2) \\
\end{align}
となり、$D$次元の各成分に対する1次元ガウス分布の積で表せられる。
$D$次元ガウス分布に関する期待値は、以下の通り。
\begin{align}
\langle x \rangle &= \mu \\
\langle xx^{\mathsf{T}} \rangle &= \mu\mu^{\mathsf{T}} + \mathbf{\Sigma} \\
\end{align}
多次元ガウス分布のエントロピー
\begin{align}
\mathtt{H}[\cal{N}(x|\mu, \Sigma)]
&= - \langle \ln \cal{N}(x|\mu, \Sigma) \rangle \\
&= - \langle - \frac{1}{2} \{(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \rangle \\
&= \langle \frac{1}{2} \{(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \rangle \\
&= \frac{1}{2} \{\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\end{align}
第1項の期待値$\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle$ は、
\begin{align}
\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle
&= \langle \mathrm{tr}(\mathbf{\Sigma^{-1}}(x-\mu)(x-\mu)^{\mathsf{T}}) \rangle \\
&= \mathrm{tr}(\langle \mathbf{\Sigma^{-1}}(x-\mu)(x-\mu)^{\mathsf{T}} \rangle) \\
&= \mathrm{tr}(\mathbf{\Sigma^{-1}} \langle (x-\mu)(x-\mu)^{\mathsf{T}} \rangle) \\
&= \mathrm{tr}(\mathbf{\Sigma^{-1}} \mathbf{\Sigma}) \\
&= \mathrm{tr}(I_D) \\
&= D
\end{align}
- $B \in Matrix(n, n)$、$y \in \mathbb{R}^n$ に対して、$y^{\mathsf{T}}By = \mathrm{tr}(Byy^{\mathsf{T}}) = \mathrm{tr}(yy^{\mathsf{T}}B^{\mathsf{T}})$ を適用する
- ただし、$\mathrm{tr}(A)$ は、行列$A$ のトレース(対角成分の和)とする
- 特に、$B$ が、対称行列($B^{\mathsf{T}} = B$)のとき、$y^{\mathsf{T}}By = \mathrm{tr}(Byy^{\mathsf{T}}) = \mathrm{tr}(yy^{\mathsf{T}}B)$
- $B := \Sigma^{-1}$、$y := x - \mu$、$n := D$
- ただし、行列の期待値を、$\langle A(x) \rangle := [\langle a_{ij}(x) \rangle]_{i,j}$ と拡張(定義)しておく
- 別の表記では、$\langle [a_{ij}(x)] \rangle := [\langle a_{ij}(x) \rangle]$ と定義
- つまり、行列の期待値を、各成分の期待値の行列として定義する。
- 行列に拡張した期待値に対して、$\langle BA(x) \rangle = B\langle A(x) \rangle$ を、適用する($B \in Matrix(n, n)$)
- 同様に、$\langle A(x)B \rangle = \langle A(x) \rangle B$ も成り立つ
- $B := \Sigma^{-1}$、$A(x) := (x-\mu)(x-\mu)^{\mathsf{T}}$、$n := D$
結局、エントロピーは、以下のようになる。
\begin{align}
\mathtt{H}[\cal{N}(x|\mu, \Sigma)]
&= \frac{1}{2} \{\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\mathtt{H}[\cal{N}(x|\mu, \Sigma)]
&= \frac{1}{2} \{D + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
&= \frac{1}{2} \{\ln |\mathbf{\Sigma}| + D(\ln 2\pi + 1) \} \\
\end{align}
多次元ガウス分布のKLダイバージェンス
真の分布 $p(x):=\cal{N}(x|\mu, \mathbf{\Sigma})$と、近似分布(予測分布)$q(x):=\cal{N}(x|\hat{\mu}, \mathbf{\hat{\Sigma}})$ のKLダイバージェンスを計算する。
\begin{align}
\mathtt{KL}[q||p]
&= - \mathtt{H}[q] - \langle \ln p \rangle_{q(\pi)} \\
&= - \mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\Sigma})] - \langle \ln \cal{N}(x|\mu, \Sigma) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})} \\
\end{align}
第1項は、
\begin{align}
\mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\Sigma})]
&= \frac{1}{2} \{\ln |\mathbf{\hat{\Sigma}}| + D(\ln 2\pi + 1) \} \\
\end{align}
第2項は、
\begin{align}
\langle \ln \cal{N}(x|\mu, \mathbf{\Sigma}) \rangle_{\cal{N}(x|\hat{\mu}, \mathbf{\hat{\Sigma}})}
&= - \frac{1}{2} \{\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle_{\cal{N}(x|\hat{\mu}, \mathbf{\hat{\Sigma}})} + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\end{align}
$\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle_{\cal{N}(x|\hat{\mu}, \mathbf{\hat{\Sigma}})}$ は、以下のようになる。
\begin{align}
\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})}
&= \langle \mathrm{tr}( (x-\mu)(x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}} )\rangle_{q(x)} \\
&= \mathrm{tr}( \langle (x-\mu)(x-\mu)^{\mathsf{T}} \rangle_{q(x)} \mathbf{\Sigma^{-1}}) \\
&= \mathrm{tr}( \langle (x-\mu)(x^{\mathsf{T}}-\mu^{\mathsf{T}}) \rangle_{q(x)} \mathbf{\Sigma^{-1}}) \\
&= \mathrm{tr}( \langle xx^{\mathsf{T}} - x\mu^{\mathsf{T}} - \mu x^{\mathsf{T}} + \mu\mu^{\mathsf{T}} \rangle_{q(x)} \mathbf{\Sigma^{-1}}) \\
&= \mathrm{tr}( \{ \langle xx^{\mathsf{T}} \rangle_{q(x)} - \langle x \rangle_{q(x)}\mu^{\mathsf{T}} - \mu \langle x^{\mathsf{T}} \rangle_{q(x)} + \mu\mu^{\mathsf{T}} \}\mathbf{\Sigma^{-1}}) \\
&= \mathrm{tr}( \{ \hat{\mu}\hat{\mu}^{\mathsf{T}} + \mathbf{\hat{\Sigma}} - \hat{\mu}\mu^{\mathsf{T}} - \mu \hat{\mu}^{\mathsf{T}} + \mu\mu^{\mathsf{T}} \} \mathbf{\Sigma^{-1}}) \\
&= \mathrm{tr}( \{ (\hat{\mu} - \mu)(\hat{\mu}^{\mathsf{T}} - \mu^{\mathsf{T}}) + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) \\
&= \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) \\
\end{align}
整理すると、以下のようになる。
\begin{align}
\langle \ln \cal{N}(x|\mu, \Sigma) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})}
&= - \frac{1}{2} \{\langle (x-\mu)^{\mathsf{T}}\mathbf{\Sigma^{-1}}(x-\mu) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})} + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
&= - \frac{1}{2} \{ \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} \\
\end{align}
KLダイバージェンスを具体的に計算すると、以下のようになる。
\begin{align}
\mathtt{KL}[q||p]
&= - \mathtt{H}[\cal{N}(x|\hat{\mu}, \hat{\Sigma})] - \langle \ln \cal{N}(x|\mu, \Sigma) \rangle_{\cal{N}(x|\hat{\mu}, \hat{\Sigma})} \\
&= - \frac{1}{2} \{\ln |\mathbf{\hat{\Sigma}}| + D(\ln 2\pi + 1) \} - [- \frac{1}{2} \{ \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \hat{\Sigma} \} \mathbf{\Sigma^{-1}}) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \}] \\
&= - \frac{1}{2} \{ \ln |\mathbf{\hat{\Sigma}}| + D(\ln 2\pi + 1) - [ \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) + \ln |\mathbf{\Sigma}| + D\ln 2\pi \} ] \} \\
&= - \frac{1}{2} \{ \ln |\mathbf{\hat{\Sigma}}| + D(\ln 2\pi + 1) - \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) - \ln |\mathbf{\Sigma}| - D\ln 2\pi \} \} \\
&= - \frac{1}{2} \{ - \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) + \ln |\mathbf{\hat{\Sigma}}| + D\ln 2\pi + D - \ln |\mathbf{\Sigma}| - D\ln 2\pi \} \} \\
&= - \frac{1}{2} \{ - \mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) + \ln \frac{|\mathbf{\hat{\Sigma}}|}{|\mathbf{\Sigma}|} + D \} \} \\
&= \frac{1}{2} \{\mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) - \ln \frac{|\mathbf{\hat{\Sigma}}|}{|\mathbf{\Sigma}}| - D \} \} \\
&= \frac{1}{2} \{\mathrm{tr}( \{(\hat{\mu} - \mu)(\hat{\mu} - \mu)^{\mathsf{T}} + \mathbf{\hat{\Sigma}} \} \mathbf{\Sigma^{-1}}) + \ln \frac{|\mathbf{\Sigma}|}{|\mathbf{\hat{\Sigma}}|} - D \} \} \\
\end{align}
ウィシャート分布(Wishart Distribution)
$D \times D$ の 正定値行列$\mathbf{\Lambda}$を生成する確率分布。
この分布は、多次元ガウス分布の共分散行列の逆行列である精度行列(precision matrix)を生成するための確率分布として使われている。
\begin{align}
\cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
:= C_{\cal{W}}(\nu, \mathbf{W})|\mathbf{\Lambda}|^{\frac{\nu-D-1}{2}} \mathrm{exp}\{-\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda})\}
\end{align}
- ただし、$\nu$ は、自由度(degree of freedom)パラメータ
- $\nu > D - 1$ を満たすように、$\nu$ を設定する必要がある
- $\mathbf{W}$ は、正定値行列のパラメータ
ウィシャート分布の対数表記は、以下の通り。
\begin{align}
\ln \cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
&= \ln C_{\cal{W}}(\nu, \mathbf{W})|\mathbf{\Lambda}|^{\frac{\nu-D-1}{2}} \mathrm{exp}\{-\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda})\} \\
&= \ln C_{\cal{W}}(\nu, \mathbf{W}) + \ln |\mathbf{\Lambda}|^{\frac{\nu-D-1}{2}} + \ln \mathrm{exp}\{-\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda})\} \\
&= \frac{\nu-D-1}{2}\ln |\mathbf{\Lambda}| -\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda}) + \ln C_{\cal{W}}(\nu, \mathbf{W})
\end{align}
ここで、ウィシャート分布の正規化項$C_{\cal{W}}(\nu, \mathbf{W})$は、以下のように対数表記されます。
\begin{align}
\ln C_{\cal{W}}(\nu, \mathbf{W})
&= -\frac{\nu}{2}\ln|\mathbf{W}| -\frac{\nu D}{2}\ln 2-\frac{D(D-1)}{4}\ln \pi - \sum_{d=1}^D \ln \Gamma(\frac{\nu + 1 - d}{2}) \\
\end{align}
ウィシャート分布を、1次元にするとガンマ分布に一致する。
$D:=1$とおく(つまり、$\mathbf{\Lambda}, \mathbf{W} \in \mathbb{R}$)
\begin{align}
\ln \cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
&= \frac{\nu-D-1}{2}\ln |\mathbf{\Lambda}| -\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda}) + \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
&= \frac{\nu-1-1}{2}\ln \mathbf{\Lambda} -\frac{1}{2}\mathrm{tr}(\frac{\mathbf{\Lambda}}{\mathbf{W}}) + \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
&= \frac{\nu-2}{2}\ln \mathbf{\Lambda} -\frac{\mathbf{\Lambda}}{2\mathbf{W}} + \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
\end{align}
ここで、$a:=\frac{\nu}{2}$、$b:=\frac{1}{2\mathbf{W}}$ とすると、
\begin{align}
\ln \cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
&= \frac{\nu-2}{2}\ln \mathbf{\Lambda} -\frac{\mathbf{\Lambda}}{2\mathbf{W}} + \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
&= \frac{\nu-2}{2}\ln \mathbf{\Lambda} -\frac{\mathbf{\Lambda}}{2\mathbf{W}} -\frac{\nu}{2}\ln\mathbf{W} -\frac{\nu}{2}\ln 2 - \ln \Gamma(\frac{\nu}{2}) \\
&= \frac{2a-2}{2}\ln \mathbf{\Lambda} -b\mathbf{\Lambda} -a\ln \frac{1}{2b} -a\ln 2 - \ln \Gamma(a) \\
&= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} +a\ln 2b -a\ln 2 - \ln \Gamma(a) \\
&= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} +a\ln 2 + a\ln b -a\ln 2 - \ln \Gamma(a) \\
&= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} + a\ln b- \ln \Gamma(a) \\
&= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} + \ln b^a - \ln \Gamma(a) \\
&= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} + \ln \frac{b^a}{\Gamma(a)} \\
&= (a-1)\ln \mathbf{\Lambda} -b\mathbf{\Lambda} + \ln C_G(a, b) \\
&= \ln \mathtt{Gam}(\mathbf{\Lambda}|a, b) \\
&= \ln \mathtt{Gam}(\mathbf{\Lambda}|\frac{\nu}{2}, \frac{1}{2w}) \\
\end{align}
つまり、
\begin{align}
\cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})
&= \mathtt{Gam}(\mathbf{\Lambda}|\frac{\nu}{2}, \frac{1}{2w})
\end{align}
$D:=1, a:=\frac{\nu}{2}$、$b:=\frac{1}{2\mathbf{W}}$ と置くと、ウィシャート分布が、ガンマ分布になる。
つまり、ウィシャート分布は、ガンマ分布を拡張した確率分布(正の実数から正定値行列へ拡張した分布)。
ウィシャート分布に関する期待値は、以下の通り。
\begin{align}
\langle \mathbf{\Lambda} \rangle &= \nu \mathbf{W} \\
\langle \ln |\mathbf{\Lambda}| \rangle &= \sum_{d=1}^D \psi(\frac{\nu + 1 - d}{2}) +D\ln 2 + \ln |\mathbf{W}| \\
\end{align}
ウィシャート分布のエントロピー
\begin{align}
\mathtt{H}[\cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W})]
&= - \langle \ln \cal{W}(\mathbf{\Lambda}|\nu, \mathbf{W}) \rangle \\
&= \langle - \frac{\nu-D-1}{2}\ln |\mathbf{\Lambda}| -\frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1}\mathbf{\Lambda}) + \ln C_{\cal{W}}(\nu, \mathbf{W}) \rangle \\
&= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1} \langle \mathbf{\Lambda} \rangle) - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
&= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{1}{2}\mathrm{tr}(\mathbf{W}^{-1} (\nu \mathbf{W})) - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
&= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{1}{2}\nu \cdot \mathrm{tr}(\mathbf{W}^{-1} \mathbf{W}) - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
&= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{\nu}{2}\mathrm{tr}(I_D) - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
&= - \frac{\nu-D-1}{2} \langle \ln |\mathbf{\Lambda}| \rangle + \frac{\nu D}{2} - \ln C_{\cal{W}}(\nu, \mathbf{W}) \\
\end{align}
ウィシャート分布は、多次元ガウス分布の精度行列(共分散行列パラメータの逆行列・$\mathbf{\Sigma}^{-1}$)に対する共役事前分布になることが知られている。