連載まとめ
はじめに
2025年11月、甘利俊一先生がその多大なる功績により、先端技術部門における京都賞を受賞されました。
昨年のAI領域におけるノーベル物理学賞の衝撃も記憶に新しい中、AI業界のいち従事者として、甘利先生の受賞はとても感慨深いものがありました。本記事では、先生への敬意を表しつつ、氏が切り拓かれた「情報幾何学」に関連したトピックについて書きたいと思います。
なぜ情報幾何学なのか?
AIが人間の知的業務を代替していく現代においても、「データに対する正しい統計的解釈」と、それに基づく「意思決定」は、人が責任を持つべき重要な知的活動だと思います。AIを活用する立場において、AIがどのようなデータ基盤に立脚しているかを理解し、そこから何を予測し判断するか。そういった記述・推測に確かな根拠を提供する統計学は、情報と解釈が溢れかえる現代において、必須な理論体系になっていると感じます。
そして、甘利先生をはじめとする数理統計学者が創始した「情報幾何学(Information Geometry)」は、その学問体系に俯瞰し、道筋をつけた地図のようなものかなと思います。
情報幾何学は、確率分布の族を「曲がった空間(多様体)」と見なし、幾何学の概念(距離・角度・曲率・射影など)を用いて統計学を再構築します。これにより、数式で表現される統計学の基本定理に、幾何学的な直観を与えることが可能になり、かつ微分幾何学も援用できます。複雑な定理の背景にある構造を視覚的に捉え、より深い議論へと展開できる点が、この分野の最大の魅力の一つと言えます。
一方で、情報幾何学は学習の敷居が高いという課題もあります。前提となる微分幾何学の知識は、理系学部卒であっても専門外であれば馴染みが薄く、その有用性を実感する前に挫折してしまうケースも多いのではないでしょうか。
そこで本アドベントカレンダーでは、微積分・線形代数の最低限の数学だけを土台にして「情報幾何学が具体的に何の役に立つのか?」という実用的な側面に焦点を当ててみたいと思います。
問題
具体的な問題設定として、先生の論文Amari,Kawanabe 1997 にちなんで、以下のよう問題を設定することにします(私自身、業務で似たような問題に遭遇し、情報幾何をちゃんと学ぶきっかけになった、というのが実はこの記事のモチベーションの一つでした)
問題0:測定誤差の推定
ここに一台の質量測定器があります。この装置は一度の操作で質量を2回測定できますが、測定値には 正規分布$\mathit{N}(0, \sigma^2)$ に従う偶然誤差が含まれます。
ある未知の質量 $\mu$ を持つ試料を使って操作を $N$ 回行い、2つの測定値の組 $(x_i, y_i)$ $ i=1,\cdots,N$ を得たとします。つまり
\begin{pmatrix}
x_i \\ y_i
\end{pmatrix}
\stackrel{\mathrm{iid}}{\sim}
\mathit{N}
\left(
\begin{pmatrix} \mu \\ \mu \end{pmatrix},
\begin{pmatrix}
\sigma^2 & 0 \\
0 & \sigma^2
\end{pmatrix}
\right)
\quad
i=1,\cdots,N
このとき、誤差 $\sigma$ の最尤推定量を求めてください。
問題1:測定誤差の推定(Neyman-Scott問題)
問題1と同じ測定器を用いますが、状況が変わります。
今度は、同じ試料を二度と測定できません。つまり、$N$ 個の異なる未知の質量を持つ試料 $\mu_1, \mu_2, \dots, \mu_N$ に対して、それぞれ1回ずつ(計2回の測定値が得られる)操作を行います。
つまり
\begin{pmatrix}
x_i \\ y_i
\end{pmatrix}
\stackrel{\mathrm{iid}}{\sim}
\mathit{N}
\left(
\begin{pmatrix} \mu_i \\ \mu_i \end{pmatrix},
\begin{pmatrix}
\sigma^2 & 0 \\
0 & \sigma^2
\end{pmatrix}
\right)
\quad
i=1,\cdots,N
得られたデータセットから、測定器固有の標準偏差 $\sigma$ を推定したいとします。
このとき、問題0と同様に、 $\mu_i$ および $\sigma$ の最尤推定量を求めてください。
その $\sigma$ の推定量は、$N \to \infty$ の極限において真の値に収束する「一致推定量」と言えるでしょうか?
問題2:比率の推定(Neyman-Scott問題)
この測定器は、実は「塩分測定」も可能な特殊な機器だったとします。1つ目の測定値は「全質量」、2つ目の測定値は「塩分のみの質量」を示します。今回も一度測った試料は再測定できません。ただし、誤差分散 $\sigma^2=1$ は既知とします。
この測定器を用いて、ある塩湖の塩分濃度(比率) $\theta$ を測定したいと考えました。
この塩湖から$N$回汲み取ってデータを得たとします。$i$回目の塩水の真の質量を $\mu_i$ とすると
\begin{pmatrix}
x_i \\ y_i
\end{pmatrix}
\stackrel{\mathrm{iid}}{\sim}
\mathit{N}
\left(
\begin{pmatrix} \mu_i \\ \theta\mu_i \end{pmatrix},
\begin{pmatrix}
1 & 0 \\
0 & 1
\end{pmatrix}
\right)
\quad
i=1,\cdots,N
となります。このとき、比率 $\theta$ の最良な推定量はどうなるでしょうか?
次回の記事に向けて
問題0は、もちろん、初頭的な最尤推定法で最良な推定値を得ることができます。$2N$個の無作為標本を正規分布から観測したと考えれば尤度は
$$
L(\mu, \sigma) = \prod_{i=1}^{2N} \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right)
$$
となり、これを最大化する母数は $\partial L/\partial \mu = \partial L / \partial \sigma^2 = 0$ を解くことで
$$
\mu_{ML} = \frac{1}{2N} \sum_{i=1}^{2N} x_i,
\quad \sigma_{ML}^2 = \frac{1}{2N} \sum_{i=1}^{2N} (x_i - \mu_{ML})^2
$$
となります。$\sigma_{ML}$ は
- (一致性) 期待値が $E[\sigma_{ML}^2] = \sigma^2 (2N-1)/(2N)$ となり、必ずしも $\sigma^2$ に一致しないものの、$N$ が十分大きい時に真の値 $\sigma^2$ に近づく
- (漸近有効性) $N$が十分大きい時、$\sqrt{N}\sigma_{ML}^2$ の分散は、理論的な最小値を達成することが数学的に示せる
という意味で、最良といえます。これは、「最尤推定量は、一定の正則条件のもとで、一致性・漸近有効性をもつ」という、最尤推定量の周知の性質によるものです。
しかしながら、問題設定1,2 は、必ずしも最尤推定量が最良の推定量にならないという興味深いパラドクスを含んでおり、Neyman-Scott 問題と呼ばれています。
実際、問題1. について、データ$(x_i, y_i) \space i=1,...,N$ を得た時の尤度関数は
\ln L(\boldsymbol{\mu}, \sigma^2) = -N \log (2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^N \left[ (x_i - \mu_i)^2 + (y_i - \mu_i)^2 \right]
であり、未知パラメータ $\boldsymbol{\mu}=(\mu_1,\cdots,\mu_N)$, $\sigma^2$ の最尤推定量を求めると、
\hat{\mu}_i = \frac{x_i + y_i}{2},\quad \hat{\sigma}^2_{ML} = \frac{1}{4N} \sum_{i=1}^N (x_i - y_i)^2
となります。この期待値 $\mathrm{E}[\hat{\sigma}^2_{ML}] = \sigma^2 / 2$ となり、 真の値 $\sigma^2$ に一致しないことがわかります。とても単純なモデルにも関わらず、最尤推定量がバイアスのある、悪い推定量と分かります。
Neyman-Scott問題でこの不都合が生じる理由は、未知パラメータ $\mu_i$ の数が測定ごとに増加し、最尤推定量の良い性質が成り立つ前提が崩れているためです。次回以降の記事で述べる予定ですが、Neyman-Scott問題は、見た目の単純さとは裏腹に無限次元(関数次元)の母数を含んでおり、数学的な取扱いが非常に難しいです。このような問題に対しても、幾何学的な取扱を推し進めることで、有益な統計的な推定方法を得ることができるのが、興味深いところです。
次回以降、この問題を例に取り、セミパラメトリック統計、情報幾何学の観点で、この問題を読み解いてみようと思います。
また、近年、言語モデルなどの大規模パラメータの確率モデルの解釈にも情報幾何学が応用されて注目を受けていますので、そういった論文にも適宜触れてみたいと思います。