これまでの記事
2025アドベントカレンダーで、情報幾何学に関する連載をしています。
この記事は第2回目になります。
この記事のアウトライン
本記事では、最低限の線形代数・解析学の知識のみから、「双対接続」と「双対平坦性」の概念に最短で辿り着くことを目指します。記事のアウトラインは以下の通りで、ほぼ青矢印に沿って話を進めていきます。
情報幾何の核心ともいえる「確率分布における不変性の要請(Chentsovの定理)」は、次の記事で触れることにします。
指数分布族とポテンシャル凸関数
まずは、確率分布の空間についての感覚を掴むため具体例として、指数分布族(Exponential Family)
p(x; \theta) = h(x) \exp \left( \theta^Tx - \psi(\theta) \right)
と呼ばれる確率分布のクラスを考えることにします。ここで、$x$は確率変数ベクトル、$\theta$ はこの分布のパラメータです。離散分布、多項分布をはじめ、多くの分布はこのクラスに属します。例えば、正規分布からの独立標本 $ y_i \stackrel{\mathrm{iid}}{\sim}\mathrm{N}(\mu, \sigma^2) \space i=1,\cdots,N$ の確率分布
p(x; \mu) = \left(\frac{1}{\sqrt{2\pi}\sigma}\right)^N \exp \left( - \sum_{i=1}^N\frac{(y_i - \mu)^2}{2\sigma^2} \right)
であれば、具体的に
x = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} \sum_i y_i \\ \sum_i y_i^2\end{pmatrix}, \quad
\theta = \begin{pmatrix} \theta^1 \\ \theta^2 \end{pmatrix} = \begin{pmatrix} \mu/\sigma^2 \\ -1/2\sigma^2 \end{pmatrix}
とすれば指数分布族に属していることがわかります。
ポテンシャル関数の凸性
指数分布族における関数 $\psi(\theta)$ は規格化定数ですが、これが $\theta$ について凸関数であることがわかります。実際、指数分布族の定義式に基づいて計算すると
\frac{\partial^2 \psi(\theta)}{\partial \theta^i \partial \theta^j} = \mathrm{Var}[x_i, x_j]
の関係がわかり、右辺は分散共分散行列(正定値)、したがって関数$\psi(\theta)$ は凸関数となります。この関数 $\psi$ のことはポテンシャル関数などと呼ばれます。
実は、指数分布族に限らず、より一般の関数族 $p(x, \theta) $ について、パラメータ$\theta$の空間で定義された凸関数 $\psi(\theta)$ が存在さえすれば、この関数族の空間で「距離(ダイバージェンス)」や「双対座標」、そして「平坦性」の概念を導入することができます。
以降、指数分布族を一旦忘れて、凸関数$\psi$の性質だけを用いて論じます。
凸関数から導かれる幾何構造
ルジャンドル変換
$\theta$ に関する凸関数が得られると、その勾配$\nabla\psi(\theta)$ は、どの$\theta$ についても異なるベクトルになります。従って、$\eta$ を
\eta = \nabla \psi(\theta)
で定義すれば、$\theta$と$\eta$ の一対一対応が得られます。この $\eta$ のことを双対座標と呼びます。同値な定義として、固定した$\eta$ について最大値
\varphi(\eta) = \max_{\theta} \{ \theta \cdot \eta - \psi(\theta) \}
を求め、最大値を与える $\theta$ を $\eta$ に対応づけても良いです。最大値となる$\eta$は右辺を$\theta$微分すれば得られますが、それは$\eta$の定義そのものです。このように、凸関数を介して双対座標を得る変換 $\eta = \eta(\theta)$ をルジャンドル変換と呼びます。
この変換の意義は、初見ではなかなか見出しにくいですが、$\theta$座標系だけでなく $\eta$座標系もひとまとめに考えた方が、結果として多くの幾何学的な事実を簡潔に整理できることが徐々にわかってくると思います。
なお、ルジャンドル変換によって $\varphi(\eta)$ も凸関数となることが証明でき、$\varphi$を介してもう一度ルジャンドル変換を行うと $\theta$ に戻ることもわかります。
Bregman ダイバージェンス
凸関数 $\psi$ を使うと、パラメータ空間 $\theta$ や $\eta$ で自然に距離の概念を導入することができます。
上の図のように、点 $\theta'$ で凸関数 $\psi$ に接する平面を考えます。この平面の高さは
\psi(\theta') + \nabla\psi(\theta')\cdot(\theta - \theta')
で表せますが、$\psi$の凸性から、一点$\theta=\theta'$でのみ $\psi$に一致し、接点から離れるにつれて$\psi$ との差は広がっていきます。従って、凸関数$\psi$と、その接平面との差
D[\theta, \theta'] := \psi(\theta) - \psi(\theta') - \nabla\psi(\theta')\cdot(\theta - \theta')
は $D[\theta, \theta'] \ge 0$ であり、等号は $\theta = \theta'$ の時だけ成り立つことがわかります。ただ、引数について非対称$D[\theta,\theta']\neq D[\theta', \theta]$ なので、距離 (distance) とは呼べないものの、$D$が大きいほど点$\theta$が接点$\theta'$から離れていると解釈できる量になっており、分離度(divergence)と解釈することができます。このような量をダイバージェンスと呼び、凸関数から導かれる $D$ をとくに Bregman ダイバージェンス と呼びます。
全く同様に、$\eta$ についての Bregman ダイバージェンスも以下のように定義できますが、
D^*[\eta, \eta'] := \varphi(\eta) - \varphi(\eta') - \nabla\varphi(\eta')\cdot(\eta - \eta')
元のダイバージェンスとは簡潔な関係があります。ルジャンドル変換の式 $\eta = \nabla\psi$ と $\varphi(\eta) = \theta\cdot\eta - \psi(\theta)$ を使って書き換えれば
D^*[\eta, \eta'] = D[\theta', \theta]
という等価性や、点P, Qの座標を $\theta_P, \theta_Q$とし、双対座標を $\eta_P, \eta_Q$ としたときの双対表現が得られます。この関係式は、次回の不偏推定量との関係性を議論するときに使います。
D[P, Q] = \psi(\theta_P) + \varphi(\eta_Q) - \theta_P \cdot \eta_Q
接空間と自然基底・双対基底
パラメータ$\theta$ はそもそも何だったかというと、確率分布関数の母数でした。つまり、あらゆる確率分布関数がなす大きな空間 $S$ の中で、特定の形の確率分布関数 $p(x, \theta)$ がなす空間 $M$ を考え、その$M$を座標づけしていたのが$\theta$であると考えることができます。
この考え方により、空間$M$は、大きな空間$S$の中に埋め込まれた「曲面」と見なすことができ、$M$上の各点$\theta$で、$M$に接する線型空間を考えることができます。この線形空間のことを接空間と呼びます。
接空間には、$\theta = (\theta^1, \theta^2,...)$ の各座標成分の方向に応じた基底 ${\bf e}_1(\theta), {\bf e}_2(\theta),...$が取れるので、接空間上のベクトルはすべてこれらの線型結合で表現できます。
これら自然基底を使うと、接空間 $T(\theta)$ に属する微小なベクトル $d{\bf \theta} = \sum_i {\bf e}_i d\theta^i$ の長さは
ds^2 = \langle d{\bf \theta}, d{\bf \theta} \rangle _\theta = \sum_{i,j} d\theta^i d\theta^j \langle {\bf e}_i, {\bf e}_j \rangle _\theta
となります。一方で、$d{\bf \theta}$は、微小であれば $M$と接平面はほぼ一致するので、$M$上で導入した「距離」であるBregmanダイバージェンス $D[\theta, \theta + d\theta]$と整合することが望ましいです。
Bregmanダイバージェンスは、その定義に基づいて Taylor展開すると
2D[\theta, \theta + d\theta] = \sum_{i,j}\frac{\partial^2 \psi} {\partial\theta^i \partial\theta^j} d\theta^i d\theta^j + \cdots
と展開でき、2次の一致を要請すると接空間における内積が
\langle {\bf e}_i, {\bf e}_j \rangle _\theta = g_{ij}(\theta) = \frac{\partial^2 \psi}{\partial\theta^i \partial\theta^j}
で定まります。こうして、$M$の接空間に自然に内積が定義でき、距離や角度をはかる計量を導入することができました。
また、同じ接空間$T$を、双対座標で基底表現することもできるので、
- 双対座標 $\eta=(\eta_1, \eta_2, \cdots)$
- 双対基底 ${\mathbf e}^1 (\eta), {\mathbf e}^2 (\eta), \cdots$
- 内積 $\langle {\mathbf e}^i(\eta), {\mathbf e}^j(\eta) \rangle = g^{ij} (\eta) = \frac{\partial^2 \varphi}{\partial\eta_i \partial\eta_j}$
のように、同じ$T$の基底ベクトルを導入できます。実は、双対基底は自然基底との間に直交性を持ちます。(Legendre変換の性質から得られる重要な性質なので、補足に証明を回します。)
\langle {\mathbf e}_i(\theta), {\mathbf e}^j(\eta) \rangle = \delta_i^{j} \quad (単位行列)
計量の導入
上記でBregmanダイバージェンスから計量を導入しましたが、実際には任意のダイバージェンス $D[\theta, \theta']$ でも同様に計量を導入できます。$D[\theta, \theta']$の具体的な関数系が与えられた時、Taylor 展開
D[\theta, \theta + d\theta] = \frac 12 g_{ij}(\theta) d\theta^i d\theta^j + O(|d\theta|^3)
の2次の係数 $g_{ij}(\theta)$ が、接平面で定義すべき内積 $\langle {\mathbf e}_i(\theta), {\mathbf e}_j(\theta) \rangle _\theta$ と一致することを要請します。この要請により、ダイバージェンス$D[\theta, \theta']$に基づいて、接空間の内積を誘導できる、と考えることができるわけです。
実は、上のTaylor展開の3次以降の係数の構造から、「接続」と呼ばれるもう一つの重要な空間構造も定まります。
接続の導入
計量の導入により、点$\theta$の近傍の局所的な内積構造が導入できました。ただ、異なる点$\theta, \theta'$の接空間どうしの関係性は全く議論していないので、大域的な幾何構造を入れる余地が残っています。これを決めるのが「接続」です。
接空間どうしの関係性は、「接ベクトル${\mathbf A}(\theta)$ が異なる点$\theta + d\theta$ に平行移動するルール」を決めることで定まります。そこで、以下のようにこのルールを決めてしまいます。
定義: 無限小平行移動 (アフィン接続)
点$\theta$での接ベクトル ${\mathbf A}(\theta) = \sum_{i} A^i(\theta) {\mathbf e} _i(\theta)$を、点$\theta + d\theta $ に平行移動してできるベクトル
${\mathbf A} _{\parallel} (\theta + d\theta) = \sum_i A _{\parallel} ^i(\theta + d\theta) {\mathbf e} _{i}(\theta + d\theta)$ は、$\Gamma^i _{jk}(\theta)$ を係数とする $A^k$の線型和の形で書けるものとする。
A_{\parallel}^i(\theta + d\theta) = A^i(\theta) - \sum_{k} \Gamma^i_{jk}(\theta) A^k(\theta) d\theta^j + O(|d\theta|^2)
この定義に現れる係数 $\Gamma^i_{jk}(\theta)$ をアフィン接続係数と呼ぶ。$\square$
「平行移動がベクトル成分$A^k$ の線型和で表せる」という仮定を課している以外は、この係数を好きに選ぶことで任意の接続を導入できます。
また、接空間の関係性を導入したことで、接ベクトルの微分を自然と導入できます。${\mathbf A}(\theta)$ と ${\mathbf A}(\theta + d\theta)$ の差を考えようとすると、それぞれ異なる接空間 $T_\theta$, $T_{\theta + d\theta}$ で定義されているので差を取れません。そこで ${\mathbf A}(\theta)$ を $T_{\theta + d\theta}$ に平行移動してから差を取ることで、微分を定義することができます。こうして定義されるのが共変微分です
定義: 共変微分
接ベクトル ${\mathbf A}(\theta)$ の ${\theta_i}$ 方向への共変微分を以下で定義する。
\begin{align}
\nabla_i A^j(\theta)
&= \lim_{\Delta\theta^i \to 0} \frac{A^j(\theta + \Delta\theta) - A^j_{\parallel}(\theta + \Delta\theta)}{\Delta\theta^i}\\
&= \frac{\partial A^j}{\partial \theta^i} + \sum_k \Gamma^j_{ik}(\theta) A^k(\theta)
\end{align}
だたし 1行目において $\Delta\theta = (0,\cdots, 0, \stackrel{i-th}{\Delta\theta^i},0, \cdots,0) \quad\square$
共変微分は、その定義から、接空間の曲がり方を考慮した上での、接ベクトルの真の変化率と解釈できます。第1項は座標成分の単純な変化率で、第2項は空間の曲がり方を考慮した調整値と考えることができます。
Rieman-Christoffel 曲率テンソル
平行移動の概念に基づいて、曲率の概念を導出することができます。
図のような、$M$上の微小な平行四辺形 $P(\theta), Q(\theta + \Delta\theta^i), R(\theta + \Delta\theta^j), S(\theta+\Delta\theta^i + \Delta\theta^j)$ を考え、$P$にある接ベクトル${\mathbf A}(\theta_P)$を平行移動させることを考えます。
$P\to Q\to S$ の経路で平行移動させると、共変微分の定義を使って
\begin{align}
A^k_{\parallel}(\theta_Q) &= A^k(\theta_Q) - \nabla_i A^k(\theta_Q) \cdot \Delta\theta^i \\
A^k_{\parallel}(\theta_S) &= A^k(\theta_S)
- \nabla_i A^k(\theta_S) \cdot \Delta\theta^i
- \nabla_j A^k(\theta_S) \cdot \Delta\theta^j
+ \nabla_j \nabla_i A^k(\theta_S) \cdot \Delta\theta^i \Delta\theta^j
\end{align}
と書き下すことができます。反対周りの経路$P\to R \to S$ で平行移動した${\mathbf A}_{\parallel}(\theta_S)$は、上の式で $i \leftrightarrow j$ と置き換えたものになり、その差分ベクトルは、共変微分の交換部分
\left(\nabla_i \nabla_j - \nabla_j \nabla_i\right) A^k=: \sum_{kl} R^k_{ijl} A^l
からくることがわかります。これをアフィン接続係数を使って計算すると
R^k_{ijl} = \frac{\partial\Gamma^k_{jl}}{\partial\theta^i} - \frac{\partial \Gamma^k_{il}}{\partial \theta^j}
+ \Gamma^k_{im}\Gamma^m_{il} - \Gamma^k_{jl} \Gamma^m_{il}
となります。この$R^k_{ijl}$を Riemann-Christoffel曲率テンソルと呼びます。もし空間に歪みがなければ、2つの経路による平行移動は同じ結果となり曲率テンソルは0となるはずで、$R^k_{ijl}$は空間が曲がっているかどうかの指標となります。
一般に、アフィン接続係数が$\Gamma^k_{ij}\neq 0$だとしても、空間が曲がっている($R^k_{ijl}\neq 0$)とは言えません。例えば2次元平面に極座標のような曲がった座標系を入れると$\Gamma^k_{ij}\neq 0$にできますが、
実態がただの平面なので、普通の接続(あとに述べるRiemann接続)のもとでは $R^k_{ijl} = 0$です。このように曲率$R^k_{ijl}$ は座標の取り方によらない指標(テンソル)になっています。
捩率
平行移動から、曲率とは別に捩れの概念も導入できます。
図のように二つの微小な接ベクトル $\Delta {\mathbf A}=\sum_k \Delta A^k {\mathbf e}_k$, $\Delta{\mathbf B} = \sum_k \Delta B^k {\mathbf e}_k$ があるとして、
- $\Delta {\mathbf A}$ を $\Delta {\mathbf B}$だけ平行移動
- $\Delta {\mathbf B}$ を $\Delta {\mathbf A}$だけ平行移動
を行って、平行四辺形を描こうとしてみます。すると、一般には平行四辺形は閉じず、捩率テンソル
S_{ij}^k = \frac 12 (\Gamma^k_{ij} - \Gamma^k_{ji})
を用いて $\sum_{ij}S^k_{ij} \Delta A^i \Delta B^j $だけ差が生じることがわかります。
捩率テンソルは、アフィン接続$\Gamma^k_{ij}$の添字$i,j$について対称的$\Gamma^k_{ij} = \Gamma^k_{ij}$であれば0になり、次に述べるRiemann接続や、本記事の範囲の情報幾何の議論では、それを前提とします。
計量を保存する接続: Riemann接続
$\Gamma^k_{ij}$のなかで、とくに重要なのが 平行移動しても内積が保存されるような接続、つまり
\langle {\mathbf A}_{\parallel}(\theta + \Delta\theta), {\mathbf A}_{\parallel}(\theta + \Delta\theta) \rangle_{\theta+\Delta\theta}
= \langle {\mathbf A}(\theta),{\mathbf A}(\theta) \rangle_\theta
を常に満たすような接続です。計算は補足に回しますが、平行移動の定義と内積の定義に基づいて計算すると
\Gamma_{i,jk} := \sum_l g_{il}\Gamma^{l}_{jk} = \frac 12 \left( \frac{\partial g_{ij}}{\partial \theta^k} + \frac{\partial g_{ik}}{\partial \theta^j} - \frac{\partial g_{jk}}{\partial \theta^i}\right)
と、計量$g_{ij}$から導かれます。この接続をとくに Riemann接続と呼びます。ここでは Riemann接続の接続係数を $\Gamma_{i,jk} =: [i;jk]$ と書いて一般の接続と区別します。上の式と一緒に導かれる等式も、次に述べる双対接続との対比で重要になります。
\frac{\partial g_{jk}}{\partial \theta^i} = [i;jk] + [i;kj]
双対接続
任意のアフィン接続$\Gamma^k_{ij}$に対して、それとは別のアフィン接続${\Gamma^*}^k_{ij}$であって、以下のような内積保存
\langle {\mathbf A}_{\parallel}(\theta + \Delta\theta), {\mathbf A}^*_{\parallel}(\theta + \Delta\theta) \rangle_{\theta+\Delta\theta}
= \langle {\mathbf A}(\theta),{\mathbf A}(\theta) \rangle_\theta
が成り立つ接続を考えてみます。ここで、${\mathbf A} _{\parallel}, {\mathbf A}^* _{\parallel} $ はそれぞれ、接続$\Gamma$, $\Gamma^* $ による、接ベクトル ${\mathbf A} (\theta)$ の平行移動です。
この関係を満たすような接続${\Gamma^*}^k _{ij}$を、$\Gamma^k _{ij}$の双対接続と呼びます。
この定義から、Riemann接続は、双対接続が自分自身である($\Gamma^k _{ij} = {\Gamma^*}^k _{ij}$)ようなアフィン接続 と表現することもできます。実際、上の定義式をアフィン接続係数を使って計算すると
\frac{\partial g_{jk}}{\partial \theta^i} = \Gamma_{i,jk} + {\Gamma^*}_{i,kj}
が得られ、Riemann接続の満たす式 $\partial g_{jk}/\partial \theta^i = \Gamma_{i,jk} + \Gamma_{i,kj}$ を$\Gamma^k_{ij} = {\Gamma^*}^k_{ij}$の場合に包含していることがわかります。
$g_{ij}$をもとにして双対接続を定義しましたが、逆に、接続$\Gamma_{ij}^k $ と双対接続 ${\Gamma^*}^k_{ij}$ が分かれば、内積を含む空間構造が定まります。実際
{\Gamma^{(0)}}^k_{ij} := \frac 12 \left(\Gamma^k_{ij} + {\Gamma^*}^k_{ij}\right)
は、内積を保存する接続、つまりRiemann接続になっていることが示せます。また、
T_{ijk} := {\Gamma^*}^k_{ij} - \Gamma^k_{ij}
で定義されるAmari-Chentsovテンソルを導入すると、
\Gamma_{i,jk} = [i;jk] - \frac 12 T_{ijk}, \quad \Gamma_{i,jk}^* = [i; jk] + \frac 12 T_{ijk}
と書き換えることができます。つまり、計量$g_{ij}$とAmari-Chentsovテンソル $T_{ijk}$ が与えられれば、接続と双対接続が両方定まる、と考えることもできます。
情報幾何学の観点では、接続や双対接続そのものよりも、$g_{ij}$ と $T_{ijk}$ を起点に考えた方が都合が良いことが、次の章で述べるダイバージェンスからの誘導や、次の記事で述べる Chentsovの定理の関連性から、了解されると思います。
ダイバージェンスから誘導される双対幾何
最後に、一般のダイバージェンスと計量$g_{ij}$, Amari-Chentsovテンソル $T_{ijk}$の関係について述べます。
ダイバージェンスのTaylor展開を再び考えますが、$D[\theta, \theta + d\theta] = D[\theta - d\theta, \theta] + O(|d\theta|^2)$ であることに注意すると、このTayler展開の2次の項は
g_{ij}(\theta) = \left.\frac{\partial^2 D[\theta, s]}{\partial s^i \partial s^j}\right|_{s=\theta}
= - \left.\frac{\partial^2 D[\theta, s]}{\partial \theta^i \partial s^j}\right|_{s=\theta}
とかけます。この$g_{ij}$を計量とすることで、接空間の内積を誘導できたことは述べてきた通りです。さらに、上の式を$\theta$で微分すると、$D[\theta, s]$の第1,第2引数の両方に作用するので
\frac{\partial g_{ij}(\theta)}{\partial \theta^k} = -\left.\frac{\partial^3 D[\theta, s]}{\partial \theta^i \partial \theta^j \partial s^k}\right|_{s=\theta} -
\left.\frac{\partial^3 D[\theta, s]}{\partial \theta^i \partial s^j \partial s^k}\right|_{s=\theta}
と2つの項が出てきます。この右辺の第1項、第2項をそれぞれ、
\begin{align}
\Gamma_{ij,k} &= -\left.\frac{\partial^3 D[\theta, s]}{\partial \theta^i \partial \theta^j \partial s^k}\right|_{s=\theta} \\
\Gamma^*_{ij, k} &= - \left.\frac{\partial^3 D[\theta, s]}{\partial \theta^i \partial s^j \partial s^k}\right|_{s=\theta}
\end{align}
とすることで、双対接続が満たすべき関係式 $\partial g_{ij}/\partial \theta^k = \Gamma_{ij,k} + \Gamma^*_{ij,k}$
を再現できます。
こうして、一般のダイバージェンス$D[\theta, s]$が具体的にあたえられると、ここで導いた関係式で計量$g_{ij}$と双対接続 $\Gamma_{ij,k}, \Gamma^*_{ij,k}$の両方が誘導されることが分かりました。
「双対平坦性」と「Bregman ダイバージェンスの存在」は等価
最後に、情報幾何学では特に重要な双対平坦性について述べます。改めて、自然パラメータ$\theta$と凸関数$\psi(\theta)$ で導入される Bregman ダイバージェンス$D$に話を戻します。これから誘導される接続はどんなものになるでしょうか?
Amari-Chentsovテンソルを、先ほどのダイバージェンスとの対応関係から計算すると
\begin{align}
T_{ijk}(\theta)
&= \Gamma^*_{ij,k} - \Gamma_{ij, k} \\
&=
- \left.\frac{\partial^3 D[\theta, s]}{\partial \theta^i \partial s^j \partial s^k}\right|_{s=\theta}
+\left.\frac{\partial^3 D[\theta, s]}{\partial \theta^i \partial \theta^j \partial s^k}\right|_{s=\theta}
\\
&=\frac{\partial^3 \psi}{\partial \theta^i \partial \theta^j \partial \theta^k }
\end{align}
がわかります。また、上の計算の過程でもわかるのですが
\Gamma_{i,jk} = \frac{\partial g_{ij}}{\partial \theta^k} - T_{ijk} = \frac{\partial}{\partial \theta^k} \frac{\partial^2 \psi}{\partial \theta^i \partial^j} - \frac{\partial^3 \psi}{\partial\theta^i \partial \theta^j \partial \theta^k} = 0
つまり、Bregmanダイバージェンスから誘導されたアフィン接続は、恒等的に 0 です。
当然、曲率 $R _{ijl}^{k} $ も 0 です。つまり自然座標系 $\theta$ は、空間としても座標軸としても平坦な座標系になっています。また、曲率が0ならその双対となる接続についての曲率も0であることから、$\eta$ 座標系での曲率 $R^{*k} _{ijl}$も恒等的に0です。このことをまとめて、Bregmanダイバージェンスは、双対平坦な接続を誘導する ということができます。
また、この議論の逆を辿って、双対平坦な接続 $\Gamma_{i,jk}, \Gamma_{i,jk}^*$ が与えられた時、それを誘導する Bregman ダイバージェンスが存在する ことも証明できます。
その意味で、双対平坦性と、Bregmanダイバージェンスの存在が同値であることがわかります。
指数分布族は双対平坦である
ここまで、もとの空間が「確率分布関数の空間S」だということはほぼ使っていないことに注意してください。つまり、純粋に数学として「双対接続」や「双対平坦」という概念を導入してきました。
そこで最後に確認もかねて、指数分布族のなす空間は双対平坦であるということをみてみましょう。
指数分布族は、自然パラメータ$\theta$に関する凸関数$\psi(\theta)$を持ち、Bregmanダイバージェンスが定義できます。従って、この記事の議論をそのまま辿っていくと、誘導される幾何構造は、双対平坦になることがほぼ明らかになります。
この双対平坦性は、指数分布族やBregmanダイバージェンスという特殊なクラスに限った話というわけではなく、「確率分布の不変性」というごく当然の要請から定まる、という事実(Chentsovの定理)があります。
次回以降、確率分布としての性質を導入していくことで、情報幾何学の核心に触れていきます。




