##はじめに
甘利俊一著「新版 情報幾何学の新展開」の勉強ノートです.
今後も書き足していく予定です.間違いがあればご指摘頂けると幸いです.@_lofifih
章 | タイトル |
---|---|
1 | 多様体とダイバージェンス関数] |
2 | 凸関数の導くダイバージェンスと双対平坦構造 |
第1章ではまず,情報幾何学で扱ういくつかの多様体をみていきます.次に,情報幾何学で重要な役割を果たすダイバージェンスという関数を定義します.
#工学に表れる空間:多様体
まずは本書で扱う多様体をいくつか定義していきます.ユークリッド空間と球面は飛ばします.
###統計モデル
情報幾何学は,正則統計モデルの幾何学的不変性を研究することから始ったようです.
測度空間 $(\Omega,\mu)$ に対し,確率密度関数全体の集合を $P(\Omega,\mu) := \{ \phi \in L^{1} (\Omega,\mu) , | , \phi > 0, \int_\Omega \phi(\omega) d \mu = 1 \}$ とおきます.$\Omega$ をサンプル空間と呼びます.文脈から明らかなときは測度 $\mu$ は省略します.基本的に $(\Omega,\mu)$ =($\mathbb{R}^{n}$,ルベーグ測度),または(高々可算集合,数え上げ測度)しか扱わないはず.
定義(正則統計モデル)
$(\Omega,\mu)$ を測度空間,$\Xi \subset \mathbb{R}$,$p:\Xi \to P(\Omega,\mu)$とする.4つ組 $(\Xi, p, \Omega, \mu)$ が次の(1)から(6)の条件を満たすとき,$(\Xi, p, \Omega, \mu)$ を正則統計モデル,または単に統計モデルという.また統計モデル $(\Xi, p, \Omega, \mu)$ を $S = \{ p(\omega;\xi) \in P(\Omega,\mu) , | , \xi = (\xi^{1},...,\xi^{n}) \in \Xi \}$ ともかく.$\Xi$ をパラメーター空間と呼ぶ.
(1) $\Xi$ は開集合.
(2) $p$ は単射.
(続く)
(1)(2)から $p$ で $S$ と $\Xi$ を同一視することにより $S$ は多様体となります.$P(\Omega,\mu)$ に可微分多様体の構造を入れて $p$ を埋め込みとかにしたいけど,$\Omega$ が無限集合だと $P(\Omega,\mu)$ が無限次元になってしまってよく分からない.
(続き)
(3) 任意の $\omega \in \Omega$ に対し,$p(\omega;-) : \xi \mapsto p(x;\xi)$ は滑らか.
(4) 偏微分と積分の順序は交換可能.
$E_{\xi}[f]:= \int_\Omega f(\omega) p(\omega;\xi) d\mu$, $l_{\xi}(\omega):=\log p(\omega;\xi)$, $\partial_{i} := \frac{\partial}{\partial \xi^{i}}$ と置く.
(5) 任意の$\xi \in \Xi$に対し $g_{ij}(\xi) := E_{\xi}[\partial_{i} l_{\xi} \partial_{j} l_{\xi}] < \infty$ で,$g_{ij} : \xi \mapsto g_{ij}(\xi)$ は滑らか. $(0 \leqq i, j \leqq n)$
(6) 任意の $\xi \in \Xi$ に対し $G(\xi) := (g_{ij}(\xi))$ は正定値行列.
$G(\xi)$ をフィッシャー情報行列,$n=1$ のときはフィッシャー情報量とも呼びます.(3)から(6)を用いて,$G$は非退化,正定値な対称2階共変テンソル場,すなわちリーマン計量を定めることがわかります.また,$G$はサンプル空間の取り換えで不変です.
フィッシャー情報行列を考える必然性として,ある統計的な不変性を考えたとき,統計モデルに許されるリーマン計量はフィッシャー計量に限ります(第4章).また,フィッシャー情報行列は,モデルにおいてパラメーターを不偏推定量で推測するとき,その推定量の分散の下界を与えます(第10章).
メモ
・後に定義するfダイバージェンスから誘導されるリーマン計量は,フィッシャー計量と一致する(第4章).
・N. Ay, J. Jost, H. V. Lˆe, L. Schwachhöfer, "Information Geometry" では,$P(\Omega)$ を無限次元も許すバナッハ多様体として議論している.
命題
$g_{ij}(\xi) = - E_{\xi}[\partial_{i} \partial_{j} l_{\xi}]$
####例:1次元ガウス分布族
$$p ( x ; \mu , \sigma) = \frac { 1 } { \sqrt { 2 \pi } \sigma } \exp \left\{ - \frac { ( x - \mu ) ^ { 2 } } { 2 \sigma ^ { 2 } } \right\}$$
は平均$\mu$,分散$\sigma^{2}$の1次元ガウス分布(正規分布)と呼ばれます.1次元ガウス分布の全体は, $\Xi = \{ ( \mu , \sigma ) \in \mathbb { R } ^ { 2 } , | , - \infty < \mu < \infty , , 0 < \sigma < \infty \}$ をパラメーター空間とし,2次元の統計モデルとなります.フィッシャー情報行列は,
$$
G(\mu,\sigma) =
\left(
\begin{array}{cc}
\frac{1}{\sigma^{2}} & 0 \\
0 & \frac{2}{\sigma^{2}} \
\end{array}
\right)
$$
となります.また,$\Xi = \{ ( \mu , \sigma^{2} ) \in \mathbb { R } ^ { 2 } , | , - \infty < \mu < \infty , , 0 < \sigma^{2} < \infty \}$ でパラメーターをとると,
$$
G(\mu,\sigma^{2}) =
\left(
\begin{array}{cc}
\frac{1}{\sigma^{2}} & 0 \\
0 & \frac{1}{2 (\sigma^{2})^2} \
\end{array}
\right)
$$
となります.
####例:離散分布族(確率単体)
$\Omega = \{0, 1, ..., n \}$ とします.
$\Xi = \{ ( \xi_{1}, ... ,\xi_{n} ) \in \mathbb { R } ^ { n } , | , \xi_{i} > 0 , , , \sum_{i=1}^n \xi_{i} \leqq 1 \}$ とおいて,
$$
p(x;\xi) = \sum_{i=1}^n \xi_{i} \delta_{i}(x) + p_0 \delta_{0} \\
p_0 := 1 - \sum_{i=1}^n \xi_{i}
$$
とすると,これは $\Xi$ から $P(\{0, 1, ..., n \})$ への全単射で,n次元の統計モデルとなります.これを,確率単体と呼び,$S_n$ とかきます.フィッシャー情報行列は,
$$
G(\xi) = \frac{1}{p_0}
\begin{pmatrix}
\frac{p_0}{\xi_1} + 1 & 1 & \cdots & 1\\
1 & \frac{p_0}{\xi_2} + 1 & \cdots & 1 \\
\vdots & \vdots & \ddots & \vdots \\
1 & 1 & \cdots & \frac{p_0}{\xi_n} + 1
\end{pmatrix}
$$
$\{0, 1, ..., n \}$ をサンプル空間とする統計モデルは,すべて $S_n$ の部分多様体となります.逆に,$S_n$ の部分多様体は統計モデルとなります.
###正測度空間
次に,(有限次元の)正測度空間 $M_{n+1}$ を定義します.
$$
M_{n+1} := \{ \phi \in L^{1} ( \{0,1,...,n \}) , | , \phi > 0 \}
$$
これに,$M_{n+1} \ni \phi \mapsto (\phi(0),...,\phi(n)) \in \mathbb{R}^n$ という対応で同一視し多様体とします.
確率単体 $S_n$ は,正測度空間 $M_{n+1}$ に標準的に埋め込まれています:$S_n \subset M_{n+1}$ .
###行列の空間
n次正方行列の全体 $M(n)$ は $R^{n^2}$ と同一視でき,$n^2$ 次元多様体になります.
n次対称行列の全体 $Sym(n)$ は,$M(n)$ の中で $\frac{n(n+1)}{2}$ 次元の部分多様体となります.
また,n次正定値対称行列の全体 $PD(n)$ は,$Sym(n)$ の中で開集合となり,よって部分多様体となります.
###神経回路網の空間
#多様体上のダイバージェンス関数
次に,多様体上のダイバージェンスという関数を定義します.ダイバージェンスは,統計学,情報理論,物理学など多くの分野で重要な役割を果たしています.
定義(ダイバージェンス)
Mを多様体,$D [-:-] : M \times M \to \mathbb{R}$ を滑らかな関数とする.次の(1)から(3)の条件を満たすとき,$D [ - : - ]$ をM上のダイバージェンスという.
(1) $D [ p: q ] \geq 0$
(2) $D [ p: q ] = 0 \Leftrightarrow p = q$
(3) $V _ { p } \neq 0$ となる任意のベクトル場$V$に対し,$\left. V _ { p } V _ { p } D [ p: q ] \right| _ { p = q } > 0$
$p,q$ を含む座標近傍 $(U, \phi)$ について,$D [ \phi(p): \phi(q) ]$ が,(i) $D [ \phi(p): \phi(q) ] \geq 0$,(ii) $D [ \phi(p): \phi(q) ] = 0 \Leftrightarrow \phi(p) = \phi(q)$,(iii) $\partial_i \partial_j D [ \phi(p): \phi(q) ] | _ { \phi(p) = \phi(q) } > 0$ が成り立つなら,$p,q$ を含む他の座標近傍でも(i)から(iii)が成り立ちます.
M上のベクトル場 $V _ { 1 } , \cdots , V _ { n } , W _ { 1 } , \cdots , W _ { m }$ に対し,
$$
D [ V _ { 1 } \cdots V _ { n }: , ] ( r ): = ( V _ { 1 } ) _ { p } \cdots ( V _ { n } ) _ { p } D [ p : r ] | _{p = r} \\
D [ , : W _ { 1 } \cdots W _ { m } ] ( r ): = ( W _ { 1 } ) _ { q } \cdots ( W _ { m } ) _ { q } D [ r: q ] | _{q = r} \\
D [ V _ { 1 } \cdots V _ { n }: W _ { 1 } \cdots W _ { m } ] ( r ): = ( V _ { 1 } ) _ { p } \cdots ( V _ { n } ) _ { p } ( W _ { 1 }) _ { q } \cdots ( W _ { m } ) _ { q } D [ p : q ] | _ { p = r , q =r }
$$
とおきます.
命題
$g(V,W) := -D[V:W] = D[VW: , ]$ は $M$ 上にリーマン計量を定める.
証明 書く.
多様体上にダイバージェンスを定めると,リーマン計量が誘導されることが分かりました.一般に,異なるダイバージェンスから,同じリーマン計量が誘導されることもあります.様々なダイバージェンスを用いて,多様体の幾何構造を調べることができます.
メモ
・ダイバージェンスからは,リーマン計量の他に双対接続が定まり,多様体上に捩じれのない双対構造を誘導する(第8章).
・逆に,捩じれのない双対構造に対し,それを誘導するダイバージェンスが存在する.
###例:ユークリッド空間上のダイバージェンス
$$D [ x : y ] = \frac { 1 } { 2 } \sum \left( x_i - y_i \right) ^ { 2 }$$
###例:統計モデル上のダイバージェンス
カルバック-ライブラーダイバージェンス
$$
D _ { K L } [ p ( x ): q ( x ) ] = \int p ( x ) \log \frac { p ( x ) } { q ( x ) } d x
$$
$\alpha$ - ダイバージェンス
$$
D _ { \alpha } [ p ( x ): q ( x ) ] = \frac { 4 } { 1 - \alpha ^ { 2 } } \left\{ 1 - \int p ( x ) ^ { \frac { 1 - \alpha } { 2 } } q ( x ) ^ { \frac { 1 + \alpha } { 2 } } d x \right\}
$$
###例:行列の空間上のダイバージェンス
###例:正測度空間上のダイバージェンス
$$
D \left[ m : m' \right] = \sum \left( - \log \frac{m'_i}{m_i} - \frac{m'_i}{mi} -1 \right)
$$
$\alpha$ - ダイバージェンス
$$
D _ { \alpha } \left[ m : m' \right] = \frac { 4 } { 1 - \alpha ^ { 2 } } \sum \left\{ \frac { 1 - \alpha } { 2 } m _ { i } + \frac { 1 + \alpha } { 2 } {m '} _ { i } - m_{i} ^ { \frac { 1 - \alpha } { 2 } } {m'} _ { i } ^ {\frac { 1 + \alpha } { 2 }} \right\}
$$
##参考文献
[1] 甘利俊一, "新版 情報幾何学の新展開"
[2] N. Ay, J. Jost, H. V. Lˆe, L. Schwachhöfer, "Information Geometry"