この記事の要点
「確率分布の不変性」の要請から、確率分布の分離度を測るダイバージェンス $D[p, p + dp]$ に、幾何学的な構造として強い制限がかけられることを示します。
これは Chentsov(チェンツォフ)の定理 と呼ばれるもので、情報幾何学においてFisher情報計量や$\alpha$-接続が「唯一の自然な構造」であることを保証する重要な定理です。
離散分布に対する Chentsovの定理
まず、$n+1$個の離散的な確率分布の全体$S_n$
S_n = \{ (p_i)_{i=0}^n \mid p_i \ge 0, \sum_{i=0}^n p_i = 1 \}
を考えます。$S_n$は、$n$個の独立パラメータで座標づけできます。ここでの問いは、 $S_n$の元 $p, q$ についてのダイバージェンス $D^{(n)}[p,q]$ として許される関数形は何か?ということです。
$S_n$ に含まれる確率分布 $p=(p_i){i=0}^n$ と、それにごく近い確率分布 $ p + dp =(p_i + dp_i){i=0}^n$ を取ったとします。確率の総和は 1 に保たれることから $\sum_{i=0}^n dp_i = 0$ が制約となります。ダイバージェンス $D^{(n)}[p : p+dp]$ を、$D$の微分可能性を仮定してTaylor展開
D^{(n)}[p, p + dp] = \frac{1}{2} \sum_{ij} A_{ij}^{(n)}(p) dp_i dp_j + \frac{1}{6} \sum_{ijk} B^{(n)}_{ijk}(p) dp_i dp_j dp_k + O(|dp|^4)
します。 $A^{(n)}_{ij}(p), B^{(n)} _{ijk}(p)$ は添字$i,j,k$の入れ替えについて対称な$p$の関数です。
この関数形を、自然な要請に基づいて絞っていきます。
要請: 事象ラベルの対等性
$S_n$ の事象ラベル $0,1,\cdots,n$ をどうつけるかは完全に任意です。従って、$D[p, p+dp]$ を事象確率$p_i, dp_i$の関数として表現したとき、すべての事象ラベル$i=0,1,\cdots,n$に関して対等な関数形でなければなりません。
2次の係数に関して丁寧に議論してみると、
- 対角要素 $A_{ii}^{(n)} (p)$ は、ラベル$i$だけが特別で、それ以外のラベルについて対等な関数であるべきです。従って, $s_0 (p)=s_0 (p_0,p_1,\cdots, p_n)$ をラベル$i,j$の入れ替えで不変な任意の関数として、$A^{(n)}_{ii}(p) = F_0^{(n)}(p_i, s_0(p))$
- 非対角要素 $A^{(n)} _{ij}(p)$、ラベル組合せ $(i,j)$について特別で、それ以外のラベルについて対等な関数であるべきです。従って、上と同様に$s_1(p)$をラベル入替えで不変な任意の関数として、 $A^{(n)} _{ij}(p) = F_1^{(n)}(p_i, p_j, s_1(p))$
となります。これを用いて Taylor 展開の2次の項を計算すると
\frac 12 \sum_{ij} \left( F^{(n)}_0(p_i, s_0(p)) \delta_{ij} + F^{(n)}_1(p_i, p_j, s_1(p))\right) dp_i dp_j
次に3次係数についても同様の議論からラベルについての等方性を要請します。$B^{(n)}_{ijk}(p)$はラベルを3つ持つので、$i,j,k$について「ラベルが全て同じ要素」、「ラベルが2つだけ同じ要素」、「ラベルが全て異なる要素」の3つの自由度が残ります。従って、式で書くならば
B^{(n)}_{ijk}(p) = \delta^{(3)}_{ijk} G^{(n)}_0(p_i, s_0(p)) + \delta^{(2)}_{ijk} G^{(n)}_1(p_i,p_k,s_1(p)) + G^{(n)}_2(p_i,p_j,p_k,s_2(p))
という形が要請されます。ここで$\delta^{(l)}_{ijk}$ はラベル$i,j,k$のうち$l$個が全て等しければ1、そうでなければ0となる記号です。
不変性の要請(Markov埋め込み)
$n+1$個の事象のうちの1つ$a$ をとりが、$a$が実際には2つの根源事象からなっていたとしましょう(例えば、「赤玉・青玉を無作為に袋から選ぶ試行で、「青玉」が薄青、濃青の2種類の色があるが、その区別には興味がなく青玉として扱う場合」などです)。確率比率 $\lambda : (1-\lambda)$ で、$a$を2つの細かい事象 $a, a'$ に分割すると、形式的に$n+2$個の事象をもつ離散分布の一部$S_{n}^{a,\lambda} \subset S_{n+1}$ を考えていることになります。
S_{n+1}^{a,\lambda} = \{p^\lambda=(\cdots,\lambda p_{a},\cdots, (1-\lambda) p_a) \mid p_i \geq 0, \sum_{i=0}^n p_i = 1\}
この変換 $p \mapsto p^\lambda$ は、情報の付加も損失もない操作です。なぜなら、事象 $a$ を分割する比率 $\lambda$ は分布 $p$ と無関係であり、この細分化にをしても、データ$x \in {0,1,\cdots,n}$からの分布$p$の推定能力が向上するわけではないからです。また、この変換を逆方向から見れば、細分化した$n+2$事象のデータ$y_j \in {0,1,\cdots,n+1}$のうち2つを同一視する粗視化
y_a \mapsto a \quad y_{n+1} \mapsto a, \text{ otherwise }y_j \mapsto j
をしたことになりますが、この粗視化後のデータから分布$p$の推定に必要な情報が変化することはないです。(統計用語を使うと、粗視化後の統計量は、分布の母数$p$についての十分統計量です)
推定に必要な情報が全く同等である以上、分布の分離度を示すダイバージェンスもそれによって変化しないと要請するのが自然ですから、以下の等式を要請します。
D^{(n+1)}[p^\lambda, p^\lambda + dp^\lambda] = D^{(n)}[p, p+dp]
これが任意の$\lambda$と微小変化$dp$で成立することから、展開の2次係数$A^{(n)} _{ij}(p)$, $B^{(n)} _{ijk}(p)$は、$n$に依存せず、かつ局所的であるとすることができます。
D^{(n)}[p, p + dp] = \frac 12 \sum_{i} f(p_i) (dp_i)^2 + \frac 16 \sum_{i} h(p_i) (dp_i)^3 + O(|dp|^4)
(詳細は後ほど補足にしますが、計算の過程で $\sum_i dp_i = 0$や、非対角成分を対角成分に押し込めたりして上の式を得ます)
関数形の確定
ここで、粗視化パラメータ$\lambda$を用いた関係式を明示的に書くと、
\begin{align}
f(p) &= \lambda^2 f(\lambda p) + (1-\lambda)^2 f((1-\lambda) p) \\
h(p) &= \lambda^3 f(\lambda p) + (1-\lambda)^3 f((1-\lambda) p) \\
\end{align}
という関数方程式が得られますが、微分可能性を仮定してこれを解くと
f(p) = \frac C p, \quad h(p) = \frac {C'} {p^2}
となります。以上から、ダイバージェンスについて関数形
\begin{align}
D[p, p+dp] &= \frac C2 \sum_{i=0}^n \frac 1{p_i} (dp_i)^2 + \frac {C'}6 \sum_{i=0}^n \frac{1}{p_i^3} (dp_i)^3 + O(|dp|^4) \\
&= \frac C2 \sum_{i,j=1}^n \left(\frac 1{p_i}\delta_{ij} + \frac 1{p_0}\right)(dp_i)^2 + \frac {C'}6 \sum_{i,j,k=1}^n\left(\frac 1{p_i^2}\delta_{ijk}^{(3)}- \frac 1{p_0^2}\right) + O(|dp|^4)
\end{align}
が得られました。最後の変形は、$p_1,\cdots p_n$を独立変数と見做したことに注意してください。この結果が、次に示すように Bregmanダイバージェンスをとる必然性に繋がります。
Bregmanダイバージェンスで誘導される離散分布の幾何構造
ところで、離散分布$S_n$は前の記事で示した指数分布族に属しており、独立変数を並べた自然パラメータ $\eta = (p_1,\cdots,p_n)$と、凸関数
\varphi(\eta) = \sum_{i=0}^n p_i \ln p_i
を使って表すことを計算で確かめることができます。ちなみに、この凸関数による Bregman ダイバージェンスを定義に従って計算すると
D_{\mathrm KL}[\eta, \eta'] = \sum_{i=0}^n p_i \ln\frac {p_i}{p_i'}
となり、いわゆる Kullback-Leiblerダイバージェンスが得られます。
このBregman ダイバージェンスを用いることで、前記事のとおり双対平坦な幾何を誘導することができ、それを特徴付ける計量$g_{ij}(\eta)$ と Amari-Chentsov テンソル $T_{ijk}(\eta)$ は
\begin{align}
g_{ij}(\eta) &= \frac{\partial^2 \varphi}{\partial \eta^i \partial \eta^j} = \frac{1}{p_i}\delta_{ij} + \frac{1}{p_0}\\
T_{ijk}(\eta) &= \frac{\partial^3 \varphi}{\partial \eta^i \partial \eta^j \partial \eta^k} = -\frac{1}{p_i^2}\delta_{ijk}^{(3)} + \frac{1}{p_0^2}
\end{align}
となり、不変性から要請される2次,3次の係数と定数倍を除いて一致することがわかります。
この式は、確率分布 $p(x, \eta) = \sum_i p_i \delta_i(x)$ のスコア関数 $ s_i(x,\eta) = \partial \ln p(x,\eta) / \partial \eta_i$ を用いた表現
\begin{align}
g^F_{ij}(\eta) &= \mathbb{E}_{\eta} \left[ s_i(x,\eta) s_j(x,\eta)\right] \\
T^F_{ijk}(\eta) &= \mathbb{E}_{\eta} \left[s_i(x,\eta) s_j(x,\eta) s_k(x,\eta)\right]
\end{align}
とも一致し、$g_{ij}(\eta)$ が Fisher情報行列 $g^F_{ij}(\eta)$ であることもわかりました。
以上の議論を整理すると、離散分布族$S_n$ について不変性の要請から誘導される計量 $g_{ij}$, Amari-Chentsovテンソル$T_{ijk}$ は $g^F_{ij}, T^F_{ijk}$の定数倍に限られることが、これにより分かったことになります。
連続分布への拡張
離散分布から、連続分布への拡張も自然と行うことができます。連続的な確率変数 $x$ を持つ確率密度関数 $p(x)$は、定義域を微小な区間に区切ることで、その極限として連続分布を再現できると考えます。
この考え方により、上記の議論をそのまま拡張すれば
\begin{align}
g^F_{ij}(\theta) &= \mathbb{E}_\theta[s_i(x,\theta) s_j(x,\theta)] = \int p(x;\theta) \frac{\partial \ln p(x,\theta)}{\partial \theta^i} \frac{\partial \ln p(x,\theta)}{\partial \theta^j} dx \\
T^F_{ijk}(\theta) &= \mathbb{E}_\theta[s_i(x,\theta) s_j(x,\theta) s_k(x,\theta)] = \int p(x;\theta) \frac{\partial \ln p(x,\theta)}{\partial \theta^i} \frac{\partial \ln p(x,\theta)}{\partial \theta^j}\frac{\partial \ln p(x,\theta)}{\partial \theta^k} dx
\end{align}
のような$\sum \to \int$ の読み替えにより、結果を拡張できます。
(厳密にこの極限操作ができるかどうかは、数学の理論して研究があるようですが、ここで深追いはしないことにします)
誘導される平坦構造
Chentsovの定理により、不変性を満たす幾何学構造は Fisher計量 $g^F$ と $T^F$ の定数倍で決定されることがわかりました。
そこで、Fisher情報行列 $g^F_{ij}$を計量とし、定数$\alpha$を用いて 3階テンソル $\alpha T^F_{ijk}$ を加えることで、新しい接続とその双対を定義してみます。
\Gamma_{ijk}^{(\alpha)} = [ij,k] - \frac{\alpha}{2} T^F_{ijk}, \quad \Gamma_{ijk}^{(\alpha)*} = [ij,k] + \frac{\alpha}{2} T^F_{ijk} = \Gamma^{(-\alpha)}_{ijk}
定数 $\alpha$ は任意の定数で、不変性の議論から許される自由度になります。この接続のことを $\alpha$-接続 と呼びます。特に, $\alpha=0$のときは自己双対なRiemann計量となります。$\alpha = \pm 1$ の場合は、
- 自然パラメータ $\theta$ について $\Gamma_{ijk}^{(+1)}(\theta) = 0$
- 双対パラメータ $\eta$ について $\Gamma_{ijk}^{(-1)}(\eta) = 0$
という双対平坦性を持つことが、$g^F$と$T^F$の定義からわかり、$\alpha$-接続の一部として双対平坦な幾何学が作れることがわかりました。
まとめ
「確率分布の不変性」という基本原理から、ダイバージェンスの構造がほぼ決まり、双対平坦構造がそこに組み込まれていることが導けました。
前の記事で Bregmanダイバージェンスをやや恣意的に導入しましたが、不変性がその強力な根拠になっていることを見ることができました。
以上で述べたように、確率分布を幾何学的な対象と捉えると非常にすっきりとした理論が見えてきます。これを援用して、複雑な統計モデルの解析や大規模言語モデルの理解に役立てることも分かっています。例えば
- Neyman-Scott問題 冒頭述べた 解析的な扱いが難しいセミパラメトリック統計に、双対平坦な幾何構造を誘導して有益な推定理論を構築できることをみてみます
- 大規模モデルの理解 情報幾何の考え方を用いた大規模言語モデル理解に関する研究が出てきています。例えば ACL 2025で Outstanding Paper Awardを受賞した 言語モデルのパラメータ空間でのマッピングや、Nature Comm. にAcceptされた 曲がった空間上のニューラルネットワークを用いた爆発的現象 は、情報幾何で大規模言語モデルの研究に斬新なストーリーを提供しており、興味深いです。
次回以降の記事では、これらを使った具体的な応用例をみていきたいと思います。