統計学
確率

ガウス分布のガウス曲率

Fisher情報行列をリーマン計量としたとき,ガウス分布のガウス曲率が負の定曲率となることを導出します.

1. 前提知識

ガウス分布は代表的な確率分布なので説明は不要だと思いますが,Fisher情報量とガウス曲率について簡単に説明します.

1.1 Fisher情報行列

確率変数を$x$,パラメータを$\xi$とする確率密度関数$p(x;\xi)$のFisher情報行列は

\mathrm{E}\left[
\frac{\partial\log p}{\partial \xi}\left(
\frac{\partial\log p}{\partial \xi}
\right)^\top
\right] \tag{1.1}

と定義されます.この記事で必要なのはこの定義だけです.

1.2 ガウス曲率

ガウス曲率はざっくり言うと,曲面の局所的な曲がり具合を表す量です.ガウス曲率について詳しく知りたい場合は"曲面と曲線の微分幾何"などを参考にしてください.
2次元曲面上のガウス曲率は,次の第1構造式と第2構造式によって定義されます.

1.2.1 第1構造式

リーマン計量が与えられた2次元曲面上の微小距離の2乗$\mathrm{d}s^2$を1次独立な1次微分形式$\theta^1$,$\theta^2$を使って,

\mathrm{d}s^2=\theta^1\theta^1 + \theta^2\theta^2 \tag{1.2}

と表したとき1

\mathrm{d}\theta^1=\theta^2\wedge \omega_2^1, \quad 
\mathrm{d}\theta^2=\theta^1\wedge \omega_1^2 \quad
(但し,\omega_2^1=-\omega_1^2) \tag{1.3}

を満たす1次微分形式$\omega_2^1$,$\omega_1^2$がただ1つ存在します.この式$(1.3)$を第1構造式といいます.

1.2.2 第2構造式

第1構造式の$\omega_2^1$を外微分すると,ある関数$K$を用いて

\mathrm{d}\omega_2^1 = K\theta^1\wedge \theta^2 \tag{1.4}

と表せます.この式$(1.4)$を第2構造式といいます.式$(1.4)$を満たすような関数$K$をガウス曲率と呼びます.
これがガウス曲率の定義になります.2
実は,$K$は$\theta^1$,$\theta^2$の取り方に依存せず,リーマン計量にだけ依存します.

2. ガウス分布のガウス曲率の計算

1次元ガウス分布

p(x;\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp{\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)}
\tag{2.1}

のパラメータ$(\mu, \sigma)$のなすの2次元曲面のガウス曲率を計算していきます.
まず,式$(1.1)$に従って1次元ガウス分布のFisher情報行列を計算すると,

\left(
\begin{array}{cc}
g_{\mu\mu} & g_{\mu\sigma} \\
g_{\sigma\mu} & g_{\sigma\sigma}
\end{array}
\right) 
=
 \mathrm{E}\left[
\left(
\begin{array}{c}
\frac{\partial\log p}{\partial \mu} \\
\frac{\partial\log p}{\partial \sigma}
\end{array}
\right)
\left(
\begin{array}{cc}
\frac{\partial\log p}{\partial \mu} &
\frac{\partial\log p}{\partial \sigma}
\end{array}
\right)
\right]
=
\left(
\begin{array}{cc}
\frac{1}{\sigma^2} & 0 \\
0 & \frac{2}{\sigma^2}
\end{array}
\right)
\tag{2.2}

となります.このFisher情報行列をリーマン計量とすると,$(\mu, \sigma)$を座標系とする2次元曲面の微小距離の2乗$\mathrm{d}s^2$は,

\mathrm{d}s^2 = (
\begin{array}{cc}
\mathrm{d}\mu &
\mathrm{d}\sigma
\end{array}
)
\left(
\begin{array}{cc}
g_{\mu\mu} & g_{\mu\sigma} \\
g_{\sigma\mu} & g_{\sigma\sigma}
\end{array}
\right) 
\left(\begin{array}{c}
\mathrm{d}\mu \\
\mathrm{d}\sigma
\end{array}
\right)
=
\frac{1}{\sigma^2}\mathrm{d}\mu^2 + \frac{2}{\sigma^2}\mathrm{d}\sigma^2
\tag{2.3}

となります.従って,例えば

\theta^1 = \frac{1}{\sigma}\mathrm{d}\mu,\quad
\theta^2 = \frac{\sqrt{2}}{\sigma}\mathrm{d}\sigma
\tag{2.4}

と取れば,式$(1.2)$を満たします.
$\theta^1$,$\theta^2$は1次独立なので,

\omega_2^1=b_1\theta^1 + b_2\theta^2
\tag{2.5}

と表せますが,これを式$(1.3)$に代入すると

\mathrm{d}\theta^1 = -b_1\theta^1\wedge\theta^2 = -\frac{\sqrt{2}}{\sigma^2}b_1\mathrm{d}\mu \wedge \mathrm{d}\sigma,
\quad
\mathrm{d}\theta^2 = -b_2\theta^1\wedge\theta^2 = -\frac{\sqrt{2}}{\sigma^2}b_2\mathrm{d}\mu \wedge \mathrm{d}\sigma
\tag{2.6}

となります.一方で,式$(2.4)$を外微分すると

\mathrm{d}\theta^1 =\frac{1}{\sigma^2}\mathrm{d}\mu \wedge \mathrm{d} \sigma,
\quad
\mathrm{d}\theta^2 = 0
\tag{2.7}

となります.式$(2.6)$と式$(2.7)$を比較すると,$b_1=-\frac{1}{\sqrt{2}}$,$b_2=0$となり,

\omega_2^1 = -\frac{1}{\sqrt{2}}\theta^1 = -\frac{1}{\sqrt{2}\sigma}\mathrm{d}\mu
\tag{2.8}

となることがわかります.式$(2.8)$を外微分すると,

\mathrm{d}\omega_2^1 = -\frac{1}{\sqrt{2}\sigma^2}\mathrm{d}\mu \wedge \mathrm{d}\sigma=
-\frac{1}{2}
\left(
\frac{1}{\sigma}\mathrm{d}\mu 
\right)\wedge
\left(
\frac{\sqrt{2}}{\sigma}\mathrm{d}\sigma
\right)
= -\frac{1}{2}\theta^1\wedge \theta^2

となります.従って,第2構造式$(1.4)$よりガウス曲率$K$は

K=-\frac{1}{2}

となります.
ガウス曲率は局所的な量なので,ふつうは$\mu$と$\sigma$の関数になりますが,Fisher情報行列をリーマン計量とした場合,$\mu$と$\sigma$に依存せず,常に一定となっています.このガウス分布のなす空間は,適当にスケール倍すると,非ユークリッド幾何で有名なポアンカレ上半平面と一致します.
余談ですが,この美しい性質の発見が情報幾何の萌芽だったそうです.3


  1. このような$\theta^1$,$\theta^2$は必ず存在しますが,一意とは限りません. 

  2. 3次元ユークリッド空間内の2次元曲面の場合,もっと直感的な定義ができますが,抽象的な定義はこうなります. 

  3. S. Amari, Information Geometry and Its Applications, Springer Japan, 2016. のPrefaceで述べられています.