情報幾何
情報幾何というのは文字通り情報理論を幾何(微分幾何)と結びつけることで確率分布の構造を幾何的に捉えることができるというものです。今回は情報幾何が統計物理に応用されている場面を紹介できたらいいなと思います。微分幾何の話は補足に回すことにしました。
双対アファイン座標系
各点の周りで計量$g$について
g(\frac{\partial}{\partial \theta^i},\frac{\partial}{\partial \eta_j})=\delta_i^j
を満たす局所$\nabla$-アファイン座標系$(\theta^i)$と局所$\nabla^\ast$-アファイン座標系$(\eta_j)$の組をとることができるような多様体$M$を考えましょう。局所$\nabla$-アファイン座標系を簡単に言うと、各点周りにあるベクトルのみによる空間の座標系という意味です。(原点が存在しないのでベクトル空間ではない)
$\nabla^\ast$は$\nabla$と性質は同じだけど、それぞれを区別するための便宜上、片方に$\ast$が加えられていると考えてください。以上の式は双対平坦な多様体において成り立つ性質となっています。このような2つの座標系の組$\set{(\theta^i),(\eta_j)}$を双対アファイン座標系とよび、それぞれを$\theta$-座標系,$\eta$-座標系ということにします。ここで省略記法を導入します。対応するベクトル場を
\partial_i:=\frac{\partial}{\partial\theta^i}, \partial^j:=\frac{\partial}{\partial\theta_j}
と書くことにします。
次のような関係式が成り立ちます。
双対アファイン座標系$\set{(\theta^i),(\eta_i)}$に関する計量$g$の成分を
g_{ij}:=g(\partial_i,\partial_j),g^{ij}:=g(\partial^i,\partial^j)
とおくと、
g_{ij}=\partial_i\eta_j=\partial_j\eta_i, g^{ij}=\partial^i\theta^j=\partial^j\theta^i, g_{ij}g^{jk}=\delta_i^k
これらはヤコビ行列の関係を使って証明することが出来ます。
ポテンシャルとダイバージェンス
先ほど定義した双対アファイン座標系から以下の定理を証明することでポテンシャル関数というものを定義することが出来ます。
ある$C^\infty$級関数の組$\set{\psi(\theta^1,...\theta^n),\varphi(\eta_1,...\eta_n)}$が存在して
\eta_i=\partial_i\psi,\theta^i=\partial^i\varphi,\psi(\theta^1,...\theta^n)+\varphi(\eta_1,...,\eta_n)-\theta^i\eta_i=0
が成り立つ。
証明
$\partial_i\eta_j=\partial_j\eta_i$であるので可積分条件より$\eta_i=\partial_i\psi$となるポテンシャル関数$\psi$の存在をいうことが出来ます。簡単に「可積分条件より」と書いたのですがこの部分は細かく話すと脱線気味になるので今回はスルーしようと思います。ポテンシャル関数$\varphi$の存在も同様にいうことが出来ます。そして関数$\psi + \varphi - \theta^i\eta_i$を全微分すると
\begin{align}
d(\psi+\varphi-\theta^i\eta_i)&=d\psi+d\varphi-(d\theta^i)\eta_i-\theta^i(d\eta_i) \\
&=(\partial_i \psi)d\theta^i+(\partial^i\varphi)d\eta_i-\eta_id\theta^i-\theta^id\eta_i \\
&= 0
\end{align}
が成り立つので関数$\psi+\varphi-\theta^i\eta_i$は定数関数であることがわかります。そこでポテンシャル関数に登場する積分定数をうまく選ぶことで常に
\psi +\varphi - \theta^i \eta_i = 0
となるように出来ます。
よって、$g_{ij}=\partial_i \partial_j \psi$, $g^{ij}=\partial^i \partial^j \varphi$と書け、$g_{ij}$も$g^{ij}$も共に正定値対称行列なので$\psi$も$\varphi$も共に狭義凸関数となります。この性質を使ってルジャンドル変換により$\varphi$と$\psi$を関連付けることが出来ます。
定理
点$p \in M$の$\theta$-座標と$\eta$-座標をそれぞれ
\theta(p)=(\theta^1(p),...,\theta^n(p)),\eta(p)=(\eta_1(p),...,\eta_n(p))
と表すことにするとポテンシャル関数の組$\set{\psi(\theta^1,...,\theta^n),\varphi(\eta_1,...,\eta_n)}$は互いにルジャンドル変換
\begin{align}
\varphi(\eta(p))=\max_{q \in M}\set{\theta^i(q)\eta_i(p)-\psi(\theta(q))} \\
\psi(\theta(p))=\max_{q \in M}\set{\eta_i(q)\theta^i(p)-\varphi(\eta(q))}
\end{align}
で関連づけられる。
証明
点$p$を固定し、関数$q \mapsto \theta^i(q)\eta_i(p)-\psi(\theta(q))$を微分してみると、
\begin{align}
d(\theta^i(q)\eta_i(p)-\psi(\theta(q))) &= (\eta_i(p)-\partial_i\psi(\theta(q)))d\theta^i(q) \\
&= (\eta_i(p) - \eta_i(q))d\theta^i(q)
\end{align}
よって右辺の最大はすべての$i$で\eta_i(p)=\eta_i(q),つまり$p=q$の時のみで達成されてその最大値は、ポテンシャルの存在することを示している式を使って
\theta^i(p)\eta_i(p)-\psi(\theta(p))=\varphi(\eta(p))
となります。
もう片方の式も同様です。
以上の準備を経て、ダイバージェンスを定義します。
2点$p,q \in M$に対して定まる量
D(p||q):=\psi(\theta(p))+\psi(\eta(q))-\theta^i(p)\eta_i(q)
を$\nabla$ダイバージェンスとよびます。先ほどの証明より$D(p||q) \ge 0$でかつ$p=q\Leftrightarrow D(p||q)=0$が成り立ちます。幾何的なイメージとしては
$D(p||q)$は$p$から見たときの$q$までの遠さを表します。またここで双対として$\nabla^\ast$-ダイバージェンス$D^\ast(p||q)$も考えることができて、この場合$\theta$と$\eta$,$\psi$と$\varphi$が入れ替わるので$D^\ast(p||q)=D(q||p)$となります。
ダイバージェンスを使って「一般化されたピタゴラスの定理」を構成することが出来ます。
$M$上に3点$p,q,r$をとります。もし$p$と$q$を結ぶ$\theta$-座標系の直線の式と$q$と$r$を結ぶ直線の式が$q$において計量$g$に関して直交しているなら
D(p||q)+D(q||r)=D(p||r)
が成り立ちます。証明は今回は省きますがそこまで難しくはないです。またこの定理を使ってダイバージェンスの非負性を使って$D(q || r) \ge 0$であることを考えると以下のことも言えます
曲面$S$が与えられたとき、$q$から$S$へのダイバージェンスを
D(q||S)=\min_{r\in S}D(q||r)
と定義すると、これを最小にする点は$p_S^\ast$において$p_s^\ast$と$q$を結ぶ直線は$S$と直交する。
確率分布空間
話は変わって確率分布の話をしようと思います。
有限事象系$\Omega_n = \set{1,...,n}$を使って$\Omega_n$上の確率分布全体の集合を$n$次元開単体として
S_{n-1}:=\set{p:\Omega_n \rightarrow \mathbb{R}_{+}; \sum_{\omega \in \Omega}p(\omega)=1}
と表します。これだけの話だと$S_n$はただの$n-1$次元多様体だと思われるかもしれませんが、この分布が確率分布であるという事実を用いて以下のような要請を課します。
$n \le l$とする。このとき、$S_{n-1}$の確率分布の構造は$S_{l-1}$の確率分布の構造を$S_{l-1}$の部分多様体$M$に制限することにより$M$に誘導される確率分布の構造と一致するべきである
今回はこの要請とそれから導かれる定理などについては詳しく述べませんが
、要請がかなり強いために、結論から言うと$\nabla^\ast$-ダイバージェンスを具体的に計算できて、
D^\ast(p||q)=\sum_{\omega=1}^np(\omega)log\frac{p(\omega)}{q(\omega)}
となります。この量はKL-ダイバージェンスと呼ばれています。
指数型分布族
$\Omega$上の関数$C(\omega),F_1(\omega),...,F_k(\omega)$, および$\mathbb{R}^k$の領域$\Theta$上を動くk次元パラメータ$\theta = (\theta^1,...\theta^k) \in \Theta$を用いて
p_{\theta}(\omega) = exp(C(\omega)+\sum_{i=1}^k\theta^iF_i(\omega)-\psi(\theta))
と表される確率分布族$M = \set{p_\theta; \theta \in \Theta}$を指数型分布族と呼びます. ここで$\psi(\theta)$は$p_\theta$が確率分布となるように調整する規格化因子とします。
みなさんがよく知っている代表的な確率分布は大抵は指数型分布族に属しています. 例えば正規分布や多項分布なども指数型分布族に属しています。
ここで次の定理を紹介します。
指数型分布族$M$に対し、
\eta_i:=E_{p_\theta}[F_i]=\sum_{\omega \in \Omega}p_\theta(\omega)F_i(\omega)
とおけば、$\eta=(\eta_1,...,\eta_k)$は$M$の局所座標系を与える。そして$\set{(\theta^i),(\eta_i)}$は双対アファイン座標系をなす。
証明は今回は省くことにします。
ここで$\eta = (\eta_1,...,\eta_k)$を固定した時に定まる確率分布族
\Gamma_\eta:=\set{q(\omega)\in S; E_q[F_i]=\eta_i(i=1,...,k)}
を考えてみます。このとき以下の定理が成り立ちます。これも証明を省きます。
$M$と$\Gamma_n$と共有点を持つならば、その点において$M$と$\Gamma_n$は直交する。
最大エントロピー原理
最後に物理の話をしようと思います。
指数型分布族の定義において、$k=1$とし、$F_1(\omega)=-H(\omega)$とおきます。そして、$\theta=0$で一様分布$u=(\frac{1}{n},...,\frac{1}{n})$を通るという条件を加えた一次元の指数型分布族
p_{\theta}(\omega) = e^{-\theta H(\omega)-\psi(\theta)}
を考えます。ここで先ほどの定理より、各$\eta\in \mathbb{R}$に対し、
\Gamma_\eta=\set{q \in S; E_q[-H]=\eta}
と$p_\theta(\omega)$は共有点$p_{\theta_*}$で直交します。
このことから先ほど紹介した一般化されたピタゴラスの定理より
\begin{align}
p_{\theta_\ast} &= \operatorname*{arg min}_{q \in \Gamma_\eta}D(u||q) \\
&= \operatorname*{arg min}_{q \in \Gamma_\eta}D^\ast(q||u) \\
&= \operatorname*{arg min}_{q \in \Gamma_\eta}\sum_{\omega \in \Omega}q(\omega)log\frac{q(\omega)}{u(\omega)} \\
&= \operatorname*{arg min}_{q \in \Gamma_\eta}\set{log n - S(q)} \\
&= \operatorname*{arg max}_{q \in \Gamma_\eta}S(q)
\end{align}
を得ます。以上の式変形は今まで準備してきた内容を総動員しました。ここで
S(q) := -\sum_{\omega \in \Omega}q(\omega)log q(\omega)
は確率$q$のシャノンエントロピーです。
上記の事実は確率変数$F_1(\omega)=-H(\omega)$の期待値が一定という拘束条件のもとでシャノンエントロピー$S(p)$を最大にする確率分布$q$は$p_{\theta_\ast}$であることを言っています。ここで
log Z(\theta):=\psi(\theta), \beta:=\theta
と書き直すと
\operatorname*{arg min}_{q:E_q[H]=const}S(q)=p_\beta(\omega)=e^{-\beta H(\omega)-\psi(\beta)}=\frac{1}{Z(\beta)}e^{-\beta H(\omega)}
となり"ハミルトニアン"Hの期待値が一定という条件のもとでエントロピーが最大となる確率分布はカノ二カル分布であることがわかります。
終わりに
今回は情報幾何の一端を紹介したのですが、情報幾何の考え方は機械学習や統計物理などに広く活かされています。ぜひ興味があったらぜひ調べてみてください。
補足
双対アファイン接続を定義します。最初に情報幾何学は情報理論を幾何(微分幾何)と結びつけるという書き方をしましたが、厳密にいうと双対アファイン接続における微分幾何学のことを情報幾何学と言います。
アファイン接続$\nabla$を持つRiemann多様体$(M,g)$において$X,Y,Z$を$C^\infty$級ベクトル場とします。このとき
Xg(Y,Z)=g(\nabla_XY,Z)+g(Y,\nabla^*_XZ)
で定義されるアファイン接続$\nabla^\ast$を計量$g$に関する$\nabla$の双対アファイン接続と呼びます。また以上のようなアファイン接続のペア$(\nabla,\nabla^\ast)$が与えられたとき、3つ組$(g,\nabla,\nabla^\ast)$を$M$の双対構造といいます。さらに$\nabla$と$\nabla^\ast$の両方に関して曲率も捩率も共に0の時、$M$は双対平坦であるといいます。
参考文献
情報幾何学の基礎(本記事はほとんどこの本の内容を扱ってます)
情報幾何学の新展開