はじめに
最近、情報幾何学について興味があるので自主的に学習を進めています✍️
情報幾何学は統計学と微分幾何学を融合した分野で、かのAIの神とも称される 甘利 俊一先生が発展させてきた分野です。その名の通り、確率分布の構造を幾何的に捉える学問です。
甘利先生の実際の講義を聞いてみると理解が深まりますね。なかなか興味深いです。
本記事では、特に統計モデルの空間がどのように幾何学的な構造を持つのか、その中心となる「フィッシャー情報行列」や「α接続」といった概念を掘り下げていきます。
情報幾何学は、最尤推定、EMアルゴリズム、次元削減などの統計的推論や機械学習アルゴリズムの挙動を幾何学的に理解するための強力なツールを提供します🌎
対象読者: 微分幾何学の基本的な概念(多様体、接空間、テンソルなど)に興味がある方、機械学習アルゴリズムの理論的背景に興味がある方
目次
- 導入:情報幾何学とは何か?
- 統計モデルの多様体:パラメータ空間を幾何学的に見る
- リーマン計量の導入:フィッシャー情報行列
- アファイン接続:多様体上の「直線」と「平行移動」
- 特定の統計モデル族と幾何学的構造
- 双対座標系とポテンシャル関数
- α-divergence:統計モデル間の「距離」
- まとめ
1. 導入:情報幾何学とは何か?🤖
皆さんは「統計学」と「幾何学」という全く異なる分野が、実は深く結びついていると聞いたら驚かれるでしょうか?🤔「情報幾何学」は、まさにこの二つの分野を融合し、統計モデルの空間に微分幾何学的な構造を導入することで、統計的な問題を幾何学的に解釈・解析する学問です。
例えば、機械学習で用いられるEMアルゴリズムや主成分分析(PCA)といった手法も、情報幾何学の視点から見ると、確率分布の空間における「射影」として理解することができます。本記事では、この魅力的な情報幾何学の基礎を、数式を丁寧に追いながら解説していきます。
2. 統計モデルの多様体:パラメータ空間を幾何学的に見る🎲
情報幾何学の第一歩は、僕たちが扱う「統計モデル」が、実は「多様体(Manifold)」と呼ばれる幾何学的な空間として捉えられる、という認識から始まります。
2.1. 確率モデルのパラメータ化
統計モデルを考えるとき、それは通常、いくつかのパラメータによって特徴づけられます。例えば、正規分布であれば平均と分散、二項分布であれば試行回数と成功確率などです。
数学的に言えば、統計モデルは、パラメータ $\xi = (\xi^1, \xi^2, ..., \xi^n)$ によって指定される確率密度関数(または確率質量関数)の族 $f(x; \xi)$ として定義されます。ここで、$n$ はモデルの持つ独立なパラメータの数であり、多様体の次元に対応します。
例1:離散確率分布
サイコロの出目のように、確率変数 $X$ が有限個の値 ${x_0, x_1, ..., x_n}$ をとる離散分布を考えましょう。各値の確率を $P(X=x_i) = q_i$ とします。ただし、$q_i > 0$ であることが条件です。
確率の総和は1であるという制約がありますので、
$$ \sum_{i=0}^{n} q_i = 1 $$
この条件から、$q_0 = 1 - \sum_{i=1}^n q_i$ のように他のパラメータで決定されるため、独立なパラメータは $q_1, ..., q_n$ の $n$ 個となります。この場合、パラメータ $\xi$ は $\xi = (q_1, ..., q_n)$ と表現されます。
例2:連続確率分布(正規分布)
連続分布の代表例として、正規分布を考えます。その確率密度関数は次のように与えられます。
f(x;\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(\mathbf{x} - \mu)^2}{2\sigma^2} \right)
このモデルのパラメータは、平均 $\mu$ と標準偏差 $\sigma$ (または分散 $\sigma^2$) で、$\sigma > 0$ が条件です。この場合、パラメータ $\xi = (\mu, \sigma)$ であり、多様体の次元は $n=2$ となります。
このように、統計モデルのパラメータが取りうる値の集合は、一つの「空間」を形成します。この空間は、曲がっていたり、境界があったりするため、ユークリッド空間(僕たちが日常的に考える直線的な空間)とは異なります。このような曲がった空間を、微分幾何学では多様体:Manifoldと呼びます。
上の図 は、2次元のパラメータ空間 $(\xi^1, \xi^2)$ を持つ多様体 $S$ を抽象的に示しており、点 $\xi$ はその多様体上の特定の確率モデルを表しています。
3. リーマン計量の導入:フィッシャー情報行列🤔
多様体上の点と点との「距離」や、多様体がどのように「曲がっているか」を測るために、情報幾何学ではフィッシャー情報行列と呼ばれる特別な量が用いられます。これは、微分幾何学におけるリーマン計量に相当します。
3.1. 対数尤度関数と偏微分
フィッシャー情報行列を定義する上で中心となるのが、対数尤度関数 $l$ です。これは、確率密度関数 $f(x;\xi)$ の対数を取ったものです。
$$ l = \log f(x;\xi) $$
対数を取ることで、積の形になっている確率密度関数を和の形に変換でき、微分などの計算が扱いやすくなります。
さらに、この対数尤度関数を、各パラメータ $\xi^i$ で偏微分します。これを $\partial_i l$ と表記します。
$$ \partial_i l = \frac{\partial}{\partial\xi^i} \log f(x;\xi) $$
3.2. フィッシャー情報行列の定義
フィッシャー情報行列 $G = [g_{ij}(\xi)]$ の要素 $g_{ij}(\xi)$ は、この対数尤度関数の偏微分を用いて、次のように定義されます。
$$ g_{ij}(\xi) \triangleq E_{\xi}[(\partial_i l)(\partial_j l)] $$
ここで、$E_{\xi}[\cdot]$ は、現在のパラメータ $\xi$ の下での確率分布 $f(x;\xi)$ に関する期待値を表します。
連続変数 $x$ の場合、期待値は積分で計算されます。
$$ E_{\xi}[g(x)] = \int f(x;\xi)g(x)dx $$
離散変数 $x_k$ の場合、期待値は和で計算されます。
$$ E_{\xi}[g(x)] = \sum_k f(x_k;\xi)g(x_k) $$
また、フィッシャー情報行列の要素は、対数尤度関数の2階微分を使って別の形でも表現できます(正規性の条件など、いくつかの数学的な条件が必要ですが、統計モデルでは多くの場合成り立ちます)。
3.3. フィッシャー情報行列の性質と意味
フィッシャー情報行列は、統計モデルの持つ情報量を測る非常に重要な尺度です。
- パラメータの感度: $g_{ij}(\xi)$ の値が大きいほど、対応するパラメータの変化が確率分布に大きな影響を与える(すなわち、より多くの情報を持っている)ことを意味します。
-
距離の定義: フィッシャー情報行列は、多様体 $S$ 上の2つの非常に近い点(確率分布)間の「統計的な距離」を定義します。例えば、微小なパラメータ変化 $d\xi = (d\xi^1, ..., d\xi^n)$ に対応する距離の2乗 $ds^2$ は、次のように定義されます。
$$ ds^2 = \sum_{i=1}^n \sum_{j=1}^n g_{ij}(\xi) d\xi^i d\xi^j $$
これは、統計モデルの空間がどのように「歪んでいるか」を示す、本質的な幾何学的構造を与えます。 -
推定量の精度: 統計的推論において、最尤推定量などの推定量の分散の下限(精度)は、フィッシャー情報行列の逆行列 $G^{-1}$ と関連しています。具体的には、クラメール・ラオの不等式として知られています。
$$ Var[\hat{\xi}]\ge\frac{1}{N}G^{-1} $$
ここで、$Var[\hat{\xi}]$ は推定量 $\hat{\xi}$ の共分散行列、$N$ は観測データの数です。
3.4. 具体例:正規分布のフィッシャー情報行列
正規分布 $f(x;\mu, \sigma^2)$ の場合、パラメータは $\xi = (\mu, \sigma)$ とします。
対数尤度関数は次式で与えられます。
$$ \log f(x;\xi) = -\frac{(x-\mu)^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2) $$
各パラメータで偏微分してみましょう。
$$ \frac{\partial l}{\partial\mu} = \frac{x-\mu}{\sigma^2} $$
$$ \frac{\partial l}{\partial\sigma} = \frac{(x-\mu)^2}{\sigma^3} - \frac{1}{\sigma} $$
これらの期待値を計算し、フィッシャー情報行列の要素を求めます。
$g_{11} = E_\xi\left[\left(\frac{\partial l}{\partial\mu}\right)^2\right] = \frac{1}{\sigma^4} E_\xi[(x-\mu)^2] = \frac{\sigma^2}{\sigma^4} = \frac{1}{\sigma^2}$
$g_{12} = E_\xi\left[\left(\frac{\partial l}{\partial\mu}\right)\left(\frac{\partial l}{\partial\sigma}\right)\right] = \frac{1}{\sigma^5} E_\xi[(x-\mu)^3] - \frac{1}{\sigma^3} E_\xi[x-\mu]$
正規分布の場合、$E_\xi[(x-\mu)^3]=0$ (3次モーメントが0) かつ $E_\xi[x-\mu]=0$ なので、$g_{12} = 0$ となります。同様に $g_{21} = 0$ です。
$g_{22} = E_\xi\left[\left(\frac{\partial l}{\partial\sigma}\right)^2\right] = E_\xi\left[\left(\frac{(x-\mu)^2}{\sigma^3} - \frac{1}{\sigma}\right)^2\right]$
$$ = \frac{3\sigma^4}{\sigma^6} - \frac{2\sigma^2}{\sigma^4} + \frac{1}{\sigma^2} = \frac{3}{\sigma^2} - \frac{2}{\sigma^2} + \frac{1}{\sigma^2} = \frac{2}{\sigma^2} $$
したがって、正規分布のフィッシャー情報行列は次のようになります。
G = \frac{1}{\sigma^2} \left(
\begin{matrix}
1 & 0 \\
0 & 2 \\
\end{matrix}
\right)
この行列を用いると、微小なパラメータ変化 $d\mu, d\sigma$ に対応する距離の2乗は、次のようになります。
$$ ds^2 = \frac{1}{\sigma^2}(d\mu^2 + 2d\sigma^2) $$
これは、正規分布のパラメータ空間が $\mu$ 方向と $\sigma$ 方向で異なる「歪み」を持っていることを示しています。
4. アファイン接続:多様体上の「直線」と「平行移動」🗝️
リーマン計量が多様体上の「距離」を定義する一方で、アファイン接続(Affine Connection)は、多様体上でベクトルを「平行に」移動させるルールを定義します。これにより、多様体上の「直線」(より正確には測地線(Geodesic))の概念が導入されます。
4.1. アファイン接続の役割
ユークリッド空間では、ベクトルを移動させてもその向きや長さは変わりません。しかし、曲がった多様体上では、ベクトルをある点から別の点へ移動させると、その「向き」が変化するように見えます。アファイン接続は、この変化を数学的に記述し、多様体上で「真っ直ぐに進む」という概念を明確にします。
4.2. α接続の定義
情報幾何学では、特にα接続と呼ばれる一般化されたアファイン接続が用いられます。α接続の係数は、クリストッフェル記号の3階テンソル表示 $\Gamma_{ij,k}^{(\alpha)}$ として次のように定義されます。
$$ \Gamma_{ij,k}^{(\alpha)} \triangleq E_{\xi}\left[\left(\partial_i \partial_j l + \frac{1-\alpha}{2} \partial_i l \partial_j l\right)\partial_k l\right] $$
ここで:
- $\partial_i \partial_j l = \frac{\partial^2}{\partial\xi^i \partial\xi^j} \log f(x;\xi)$ は対数尤度関数の2階偏微分です。
- $\alpha$ は任意の実数パラメータで、この値によって接続の性質が決定されます。
- 第2項 $\frac{1-\alpha}{2} \partial_i l \partial_j l$ は、接続の非対称性や曲率の性質を調整する役割を果たします。
4.3. e-接続 と m-接続
α接続の中で特に重要なのが、$\alpha=1$ の場合と $\alpha=-1$ の場合です。
-
e-接続(e-connection, $\alpha=1$)
式に $\alpha=1$ を代入すると、第2項の係数 $\frac{1-1}{2}$ が $0$ になるため、e-接続の係数は次のように簡略化されます。
$$ \Gamma_{ij,k}^{(1)} = E_{\xi}[(\partial_i \partial_j l)\partial_k l] $$
e-接続は、特定の統計モデル族(後述の指数型分布族)において、そのパラメータ空間が「平坦」であるという性質を与えます。これは、e-接続で定義される測地線が、ユークリッド空間の直線のようにふるまうことを意味します。 -
m-接続(m-connection, $\alpha=-1$)
式に $\alpha=-1$ を代入すると、第2項の係数 $\frac{1-(-1)}{2}$ が $1$ になるため、m-接続の係数は次のようになります。
$$ \Gamma_{ij,k}^{(-1)} = E_{\xi}[(\partial_i \partial_j l + \partial_i l \partial_j l)\partial_k l] $$
m-接続は、別の統計モデル族(後述の混合型分布族)において、そのパラメータ空間が「平坦」であるという性質を与えます。
4.4. 双対性と測地線
e-接続とm-接続は、情報幾何学における双対性:Duality の概念の中心にあります。これら二つの接続は互いに双対な関係を持ち、これにより多様体上に2種類の「直線」(測地線)を定義することができます。
双対平坦空間と呼ばれる特別なタイプの情報多様体では、e-測地線とm-測地線が互いに直交するという、非常に重要な幾何学的な性質が成り立ちます。この性質は、統計的推論や学習アルゴリズムの解析において、非常に強力なツールとなります。
5. 特定の統計モデル族と幾何学的構造🧮
α接続は、特定の統計モデルのクラスに固有の幾何学的構造を与え、それらのモデルの特性を深く理解することを可能にします。
5.1. 指数型分布族 (Exponential Family)
指数型分布族は、その確率密度関数が次の標準的な形式で書ける確率分布の族です。
$$ f(x;\theta) = \exp\left(\sum_{i=1}^n \theta^i F_i(x) - \psi(\theta) + C(x)\right) $$
ここで:
- $\theta = (\theta^1, ..., \theta^n)$ は自然パラメータ(natural parameterと呼ばれるベクトルです。
- $F_i(x)$ は十分統計量(sufficient statisticsと呼ばれる $x$ の関数です。
- $\psi(\theta)$ はキュムラント母関数(cumulant generating function)またはポテンシャル関数と呼ばれ、分布を正規化するための関数です。
- $C(x)$ は $x$ のみの関数で、正規化定数の一部です。
指数型分布族の多様体は、e-接続に関して平坦であるという非常に重要な性質を持ちます。これは、指数型分布族のパラメータ空間における統計的な関係が、e-接続の枠組みでは「直線的」に振る舞うことを意味します。
例:正規分布の再訪
前述の正規分布 $f(x;\mu, \sigma^2)$ は、指数型分布族として表現できます。
次のようにパラメータと関数を定義します。
- 自然パラメータ: $\theta^1 \triangleq \mu/\sigma^2$, $\theta^2 = -1/(2\sigma^2)$
- 十分統計量: $F_1(x) \triangleq x$, $F_2(x) = x^2$
5.2. 混合型分布族 (Mixture Family)
混合型分布族は、複数の基本分布の凸結合(重み付き平均)で表現される確率分布の族です。
$$ f(x;\theta) = \sum_{i=0}^n \theta^i F_i(x) $$
ここで、$\theta^i$ は混合係数(または混合比率)であり、$\sum_{i=0}^n \theta^i = 1$ かつ $\theta^i \ge 0$ という制約を満たします。$F_i(x)$ は基本となる確率分布(例えば、異なる平均を持つ正規分布など)です。
混合型分布族の多様体は、m-接続に関して平坦であるという性質を持ちます。これは、混合型分布族のパラメータ空間における統計的な関係が、m-接続の枠組みでは「直線的」に振る舞うことを意味します。
6. 双対座標系とポテンシャル関数🪞
指数型分布族の多様体には、e-接続とm-接続という二つの「平坦」な接続が存在することから、互いに双対な二つの座標系を導入することができます。
6.1. 自然パラメータと期待値パラメータ
-
自然パラメータ(e-座標系): 前述の $\theta = (\theta^1, ..., \theta^n)$ は、e-接続の自然な座標系であり、e-測地線がこの座標系で直線的に表現されます。
-
期待値パラメータ(m-座標系): 自然パラメータ $\theta$ に加えて、期待値パラメータ $\eta = (\eta_1, ..., \eta_n)$ が導入されます。これは、十分統計量の期待値として定義されます。
$$ \eta_i \triangleq E_{\theta}[F_i(x)] $$
6.2. Legendre変換とポテンシャル関数
これら二つの座標系 $\theta$ と $\eta$ は、それぞれに対応するポテンシャル関数 $\psi(\theta)$ と $\varphi(\eta)$ を持ち、これらはLegendre変換:Legendre Transformation によって結び付けられます。
$$ \psi(\theta) + \varphi(\eta) - \sum_{i=1}^n \theta^i \eta_i = 0 $$
この関係式は、情報幾何学における双対構造の根幹をなすものです。
また、各座標は対応するポテンシャル関数の偏微分として得られます。
$$ \eta_i = \frac{\partial\psi(\theta)}{\partial\theta^i} $$
$$ \theta^i = \frac{\partial\varphi(\eta)}{\partial\eta_i} $$
6.3. フィッシャー情報行列と双対座標系
フィッシャー情報行列 $g_{ij}$ は、$\eta$ 座標系から $\theta$ 座標系への変換のヤコビ行列として表現できます。
$$ g_{ij} = \frac{\partial\eta_i}{\partial\theta^j} = \frac{\partial^2 \psi(\theta)}{\partial\theta^i \partial\theta^j} $$
同様に、フィッシャー情報行列の逆行列 $g^{ij}$ は、次のように表現されます。
$$ g^{ij} = \frac{\partial\theta^i}{\partial\eta_j} = \frac{\partial^2 \varphi(\eta)}{\partial\eta_i \partial\eta_j} $$
これらの関係は、$\theta$ と $\eta$ の座標系が互いに「直交」していること、そしてフィッシャー情報行列がその直交性を保証する計量であることを示唆しています。
7. α-divergence:統計モデル間の「距離」🧠
情報幾何学では、2つの確率分布 $p$ と $q$(または対応する多様体上の点)の間の「距離」を測るために、α-Divergence が用いられます。これは、統計モデル間の情報の違いを定量化する汎用的な尺度です。
7.1. α-divergenceの定義と性質
α-divergence $D^{(\alpha)}(p||q)$ は、双対的なポテンシャル関数 $\psi(\theta)$ と $\varphi(\eta)$ を用いて次のように定義されます。
$$ D^{(\alpha)}(p||q) \triangleq \psi(\theta(p)) + \varphi(\eta(q)) - \sum_{i=1}^n \theta^i(p)\eta_i(q) $$
ここで、$\theta(p)$ は点 $p$ の自然パラメータ、$\eta(q)$ は点 $q$ の期待値パラメータです。
このα-divergenceは、以下の重要な性質を持ちます。
- 非負性: $D^{(\alpha)}(p||q) \ge 0$。発散は常に0以上です。
- 同一性: $D^{(\alpha)}(p||q) = 0 \iff p=q$。発散が0になるのは、2つの分布が完全に一致する場合のみです。
- 双対性: $D^{(-\alpha)}(p||q) = D^{(\alpha)}(q||p)$。$\alpha$ を $-\alpha$ に変えると、発散の引数の順序が入れ替わります。
7.2. Kullback-Leibler Divergenceとの関係
α-divergenceの最も重要な特殊なケースは、統計学で広く用いられるKullback-Leibler Divergenceとの関係です。
-
$\alpha=1$ の場合:
$D^{(1)}(p||q)$ は、通常のKullback-Leibler Divergence $K(f||g)$ に一致します。
$$ K(f||g) = \int f(x)[\log f(x) - \log g(x)]dx $$
これは、分布 $g(x)$ を用いて分布 $f(x)$ を近似したときの情報の損失(あるいは情報の利得)を表します。 -
$\alpha=-1$ の場合:
$D^{(-1)}(p||q)$ は、$K(g||f)$ に一致します。これは、双対性の性質 $D^{(-\alpha)}(p||q) = D^{(\alpha)}(q||p)$ から直接導かれます。
α-divergenceは、統計モデルの空間における幾何学的な距離の概念を一般化し、統計的推論や学習アルゴリズムの解析において、非常に強力なツールとなります。
8. まとめ ✍️
本記事では、情報幾何学の基礎となる概念、特に統計モデルの多様体、フィッシャー情報行列、α接続、双対座標系、そしてα-divergenceについて解説しました。
- 統計モデルのパラメータ空間が多様体 として捉えられること。
- フィッシャー情報行列 が、この多様体上のリーマン計量として機能し、統計的な情報量や距離を定義すること。
- α接続 が、多様体上の「直線」(測地線)やベクトルの平行移動の概念を導入し、特にe-接続 とm-接続 が互いに双対な関係にあること。
- 指数型分布族 がe-接続に関して平坦であり、混合型分布族 がm-接続に関して平坦であること。
- 自然パラメータ と期待値パラメータ が双対座標系を構成し、ポテンシャル関数 がこれらを変換 で結びつけること。
- α-divergence が、統計モデル間の「距離」を測る一般化された尺度であり、Kullback-Leibler Divergence を含むこと。
まだ学習途中で難しいかもしれませんが、これらの知識を踏まえて今後自分のAIの研究に役立てられたらと思います🫡