##はじめに
甘利俊一著「新版 情報幾何学の新展開」の勉強ノートです.
今後も書き足していく予定です.間違いがあればご指摘頂けると幸いです.@_lofifih
章 | タイトル |
---|---|
1 | 多様体とダイバージェンス関数 |
2 | 凸関数の導くダイバージェンスと双対平坦構造 |
第2章ではまず,多様体上の凸関数からダイバージェンスと双対平坦構造を導きます.次に,双対平坦空間上で拡張ピタゴラスの定理と拡張射影定理が成立することをみます.
#凸関数とダイバージェンス
$M$ を多様体,$( U ,\xi )$ をチャート, $f$ を $U$ 上の滑らかな関数とします.ヘッセ行列 $H(f \circ \xi)$ がUの各点で正定値のとき,$f$ を $( U ,\xi )$ に関する(狭義)凸関数と定義します(以下,狭義は省略).もちろん一般には,ある座標系で凸でも,別の座標系 $\xi'$ では凸関数にはなりません.(アフィン変換で移りあう座標系ならOK).
定義(Bregmanダイバージェンス)
$\psi$ を $( U ,\xi )$ に関する凸関数とする.$U \times U$ 上の関数を,
$$
D ^ B _ {\psi}[ p ; q ] = \psi \left( \xi _ { p } \right) - \psi \left( \xi _ { q } \right) - \nabla \psi \left( \xi _ { q } \right) \cdot \left( \xi _ { p } - \xi _ { q } \right)
$$で定義し,Bregmanダイバージェンスと呼ぶ.
#Legendre変換と双対性
凸関数の性質を復習します.
$U \subset \mathbb { R } ^ { n }$ を開集合,$\psi : U \longrightarrow \mathbb { R }$ を滑らかな凸関数とします.このとき,
$$
\begin{array}{cccc}
&\nabla \psi : &U &\longrightarrow &\mathbb{R}^n \
&&\xi &\longmapsto &\nabla \psi ( \xi )
\end{array}
$$
は,滑らかな単射となります.よって,Brouwerの定義域不変定理から,$U ^ { * } := \nabla \psi (U) $ は開集合となります.
$U^*$ 上の関数 $\psi ^ { * }$ を,
$$
\begin{array}{cccl}
&\psi ^ { * }: &U ^ { * } &\longrightarrow &\mathbb { R } \
& &\xi ^ { * } &\longmapsto &\max _ { \xi \in U } \left\{ \xi \cdot \xi ^ { * } - \psi ( \xi ) \right\}
\end{array}
$$
と定義します.$\xi \left( \xi ^ { * } \right) = \operatorname { argmax } _ {\xi} \left\{ \xi \cdot \xi ^ { * } - \psi ( \xi ) \right\}$ とおくと,$\xi \cdot \xi ^ { * } - \psi ( \xi )$ は $\xi = \xi^* ( \xi^* )$ で最大値をとるので,$\xi ^ { * } - \nabla \psi \left( \xi \left( \xi ^ { * } \right) \right) = 0$ .よって,$\xi \left( \xi ^ { * } \right) = ( \nabla \psi ) ^ { - 1 } \left( \xi ^ { * } \right)$ です.
いま,
$$
\psi^* ( \xi^* ) = \left\{ \xi \left( \xi ^ { * } \right) \cdot \xi ^ { * } - \psi ( \xi \left( \xi ^ { * } \right) ) \right\}
$$とかけて,$\xi^*$ で微分すると,
$$
\begin{aligned}
\nabla \psi ^ { * } \left( \xi ^ { * } \right) & = \xi \left( \xi ^ { * } \right) + \nabla \xi \left( \xi ^ { * } \right) \cdot \xi ^ { * } - \nabla \psi \left( \xi \left( \xi ^ { * } \right) \right) \cdot \nabla \xi \left( \xi ^ { * } \right) \
& = \xi \left( \xi ^ { * } \right)
\end{aligned}
$$
よって,$\nabla \psi ^ { * } = ( \nabla \psi ) ^ { - 1 }$ となり,$U$ と $U^*$ は $\nabla \psi$ と $\nabla \psi ^ { * }$ で微分同相となります.
また,$\partial ^ { i } = \frac { \partial } { \partial \xi ^ { i } }$ ,$\partial _ { i } = \frac { \partial } { \partial \xi _ { i } ^ { * } }$ として,
$$
\begin{align}
G & = (g_{ij}) \quad g _ { i j } := \partial _ { i } \partial _ { j } \psi ( \xi ) = \partial _ { i } \xi _ { j } ^ { * }\
G^* & = (g^{*ij}) \quad g ^ { * i j } := \partial ^ { i } \partial ^ { j } \psi ^ { * } \left( \xi ^ { * } \right) = \partial ^ i \xi ^ { j }
\end{align}
$$
とおくと,$G$ と $G ^ {\ast}$ はそれぞれ $\psi$ と $\psi ^ {\ast}$ のヤコビ行列なので $G^* = G^{-1}$ となり,$G^*$ も正定値行列.よって $\psi^{\ast}$ も凸関数となります.
これまでの議論を $U^{\ast}$ と $\psi^{\ast}$ から行えば,$U$ と $\psi$ が得られます.
同様にして,多様体に $(U,\xi)$ に関する凸関数が与えられたとき,新しい座標系 $\xi^*$ が得られます.$\xi^{\ast}$ を $\xi$ の双対座標系といいます.(次節で一般の双対座標系の定義をします.)
命題
$\psi$ を $( U ,\theta )$ に関する凸関数とし,$\theta^*$ を双対座標とする.このとき $\psi$ のBregmanダイバージェンスは,
$$
D ^ B _ {\psi} [ p ; q ] = \psi \left( \theta _ { p } \right) + \psi^{\ast} \left( \theta^{\ast} _ { q } \right) - \theta _ p \cdot \theta ^ {\ast} _ q
$$とかける.
証明 $\psi ( \theta ) = \theta \cdot \theta ^ { * } - \psi^* ( \theta^* )$ と $\nabla \psi (\theta) = \theta ^{\ast}$ を使えばいい.(証明おわり)
Bregmanダイバージェンスは,前回定義した意味で $U$ 上のダイバージェンスになっています.
#凸関数と双対平坦多様体
多様体のチャート $( U ,\theta )$ に凸関数が与えられたとき,$U$上に双対平坦構造を定めることができることをみます.まずは双対平坦空間を定義します.
定義(双対接続,統計多様体,双対平坦空間)
$(M,g)$ をリーマン多様体,$\nabla, \nabla^{\ast}$ を接続とする.
任意のベクトル場 $X,Y,Z$ に対し,
$$
Zg(X,Y) = g(\nabla_Z V,W) + g(V,\nabla^{\ast}_Z W)
$$が成り立つとき,$\nabla, \nabla^{\ast}$ は互いに $g$ に関する双対接続であるという.
さらに,$\nabla, \nabla^{\ast}$ の捩れがないとき $(M,g,\nabla, \nabla^{\ast})$ を統計多様体という.
加えて,$\nabla$ の曲率が0(このとき$\nabla^{\ast}$の曲率も0)のとき $(M,g,\nabla, \nabla^{\ast})$ を双対平坦空間という.
$( U ,\theta )$ に凸関数が与えられたとき,$U$上に $G = (g_{ij})$ (ここで $g _{ij}= \partial _ { i } \partial _ { j } \psi ( \theta )$)でリーマン計量を定めることができます.Legendre変換で得られた $\psi^{\ast}, \theta^{\ast}$ からも $G^{\ast} = (g^{*ij})$ (ここで $g^{*ij} = \partial ^ { i } \partial ^ { j } \psi ( \theta^{\ast} )$)で $U$ 上にリーマン計量が定まります.
$U$ 上に接続 $\nabla$ を $\theta$ に関して,接続係数 $\Gamma^k_{ij} = 0$ で定めます.このように各点で接続係数が消えるような座標系を $\nabla$-アフィン座標系とよびます.
また,接続 $\nabla^{\ast}$ を $\theta^{\ast}$ に関して $^{\ast}\Gamma^c_{ab} = 0$ で定めます.
定理
$(U,g,\nabla,\nabla^{\ast})$ は双対平坦空間.
証明 $\bar { ^{\ast} \Gamma} ^ {l} _ { i j }$ を $\nabla^{\ast}$ の $\theta$ に関する接続係数とすると,
$$
\begin{align}
\bar { ^{\ast} \Gamma} ^ {l} _ { i j } & = \left( \partial ^ { i } \theta _ { a } ^ { * } \cdot \partial ^ { j } \theta _ { b } ^ { * } \cdot {^{\ast}\Gamma _ { a b } ^ { c }} + \partial ^ { i } \partial ^ { j } \theta _ { c } ^ { * } \right) \cdot \partial _ { c } \theta ^ { l } \
& = \partial ^ { i } \partial ^ { j } \theta _ { c } ^ { * } \cdot \partial _ { c } \theta ^ { l } \
& = \partial ^ { i } \partial ^ { j } \theta _ { c } ^ { * } \cdot g ^ { * c l } \
\end{align}
$$
両辺に $g _ { l k }$ をかけて,
$$
\begin{aligned}
\bar { ^{\ast} \Gamma } _ { i j k } & = \partial ^ { i } \partial ^ { j } \theta _ { c } ^ { * } \cdot g ^ { * c l } \cdot g _ { l k } \
& = \partial ^ { i } \partial ^ { j } \theta _ { c } ^ { * } \cdot \delta _ { k } ^ { l } \
& = \partial ^ { i } \partial ^ { j } \theta _ { k } ^ { * } \
& = \partial ^ { i } \partial ^ { j } \partial ^ { k } \psi \
\end{aligned}
$$
よって,
$$
\begin{aligned}
\Gamma _ { k i j } + \bar { ^{\ast} \Gamma } _ { k i j } & = 0 + \partial ^ { k } \partial ^ { i } \partial ^ { j } \psi \
& = \partial ^ { k } g _ { i j }
\end{aligned}
$$
となり,$\nabla,\nabla^{\ast}$ は双対接続.
また,接続の捩れと曲率が0となることと,アフィン座標系が取れることは同値.([2, p76]または[4,p174]参照)よって $\nabla$ と $\nabla^{\ast}$ の定め方からそれぞれ捩れと曲率は0.(証明おわり)
任意の $i,j$ に対して, $g(\frac {\partial} {\partial \xi_{i}},\frac {\partial} {\partial \xi_{j}^{\ast}}) = \delta^{i}_{j}$ が成り立つとき,座標系 $\xi, \xi^{\ast}$ はそれぞれの双対座標系であるといいます.
定理
上で定めた $\theta, \theta^{\ast}$ は双対座標系.
証明 $\partial^{j}$ を $\partial_{i}$ たちで基底表示すればいい.(証明終わり)
メモ
- 逆に双対平坦空間からは,各点でアフィン座標系と双対アフィン座標系がとれて,それぞれの上に凸関数が定まります(第8章).つまり局所的には,双対平坦構造と凸関数は同じだけの情報を持っています.
- リーマン多様体の各点で,リーマン計量が凸関数のヘッシアンとなるような凸関数とアトラスがとれる多様体は,ヘッセ多様体(またはアフィンケーラー多様体)とよばれています.ヘッセ多様体は,大域的な双対平坦構造をもちます.
命題
$M$ をm次元リーマン多様体,$\nabla$ を $M$ 上の接続,$M$ は各点で $\nabla$-アフィン座標系がとれるとする.また,$S$ を $M$ のn次元部分多様体とする.このとき次は同値.
(1) $S$ は自己平行部分多様体.
(2) $M$ の $\nabla$-座標系 $\theta$ に対して,ある $S$ の座標系 $\xi$ とランクnのm×n行列 $A$ と $b \in \mathbb{R} ^ n$ がとれて,次のようにかける.
$$
\left(
\begin{array}{c}
\theta^1 \
\vdots \
\vdots \
\theta^{m}
\end{array}
\right) =
A
\left(
\begin{array}{c}
\xi^1 \
\vdots \
\xi^{n}
\end{array}
\right) + b
$$
証明 [2,p88]参照.
測地線は自己平行1次元部分多様体なので,測地線は
$$\theta (t) =at + b \quad (a \neq 0 , , a,b \in \mathbb{R})$$とかけます.
定理
$(M,g,\nabla,\nabla^{\ast})$ を双対平坦空間,$S$ を $M$ の部分多様体とする.$S$ が $\nabla$-平坦または $\nabla^{\ast}$-平坦なら,$(S,g,\nabla,\nabla^{\ast})$ も双対平坦空間.
証明 [3,p200]参照.
#拡張ピタゴラスの定理
補題
$$D ^ B [ p : q ] + D ^ B [ q : r ] - D ^ B [ p : r ] = \left( \theta _ { p } - \theta _ { q } \right) \cdot \left( \theta _ { n } ^ { * } - \theta _ { q } ^ { * } \right)$$
証明 計算する.(証明終わり)
定理(拡張ピタゴラスの定理)
$p$ と $q$ を結ぶ $\nabla$-測地線と $r$ と $q$ を結ぶ $\nabla^{\ast}$-測地線が $q$ で $g$ に関して直交するなら,
$$D ^ B [ p : q ] + D ^ B [ q : r ] = D ^ B [ p : r ] $$ が成り立つ.
証明 3つ前の命題から、$p$ と $q$ を結ぶ $\nabla$-測地線は,$ t \theta _ { q } + ( 1 - t ) \theta _ { p }$, $r$ と $q$ を結ぶ $\nabla^{\ast}$-測地線は $t \theta _ { r } ^ { * } + ( 1 - t ) \theta _ { q } ^ { * }$ と書ける.それぞれ $q$ での速度ベクトルは $ (\theta ^ {i} (p) - \theta ^ {i} (q) ) \partial_{i}$ と $(\theta ^ {\ast} _ {i} (r) - \theta ^ {\ast} _ {i} (q) ) \partial^{i}$ とかけて,直交することから $\left( \theta _ { p } - \theta _ { q } \right) \cdot \left( \theta _ { n } ^ { * } - \theta _ { q } ^ { * } \right) = 0$.よって補題からわかる.(証明終わり)
#拡張射影定理
##参考文献
[1] 甘利俊一, "新版 情報幾何学の新展開"
[2] 藤原彰夫, "情報幾何学の基礎"
[3] N. Ay, J. Jost, H. V. Lˆe, L. Schwachhöfer, "Information Geometry"
[4] J. Jost, "Riemannian Geometry and Geometric Analysis"