たまたま見つけた甘利先生の情報幾何の生い立ちという寄稿に
私は,この輪講のレポートとして,正規分布のリーマン計量(Fisher情報行列)を計算してみた.また,測地線や曲率を計算した.程よい演習問題である.ところが,これが負の定曲率空間,すなわちボヤイとロバチェフスキーの考えた非ユークリッド空間になるのを知って,いたく感激した.
とあって「何それ面白そう」と思ったので 情報幾何学 というものを勉強してみようと思った。いきなり一般化された定義から入るのは難しいので,まずは具体例として正規分布のなす空間について調べてみる。
情報幾何学とは
一次元正規分布について考える。これは平均値$\mu$と標準偏差$\sigma>0$によって定まる確率分布$N(\mu,\sigma^2)$で,確率密度関数は
$$p(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$$
と表される。ハイパパラメータを明示して $p(x;\mu,\sigma)$ のように書くこともある。
下図のように $x=\mu$ の周りに対称に分布し,$\sigma$ が小さいほど尖った分布であり、$x$ が $(a,b)$ に含まれる確率は
$$ P(a<x<b) = \int_a^b p(x)\mathrm{d}x $$
と計算できる。
https://upload.wikimedia.org/wikipedia/commons/thumb/7/74/Normal_Distribution_PDF.svg/2560px-Normal_Distribution_PDF.svg.png
ここで 一次元正規分布全ての集合
$$ \mathcal{N}=\{p(x;\mu,\sigma)\mid \mu \in (-\infty,\infty),\sigma\in(0,\infty)\} $$
を考えてみる。これは2つのパラメータ $\mu,\sigma$ で表されるので 2次元 の 統計的モデル とか パラメトリックモデル とかと呼ばれる。統計的推定や機械学習といった問題は,このような 「確率分布の集合 $\mathcal{N}$ の中から(何らかの意味で)最も良いものを見つけだす問題」 として捉える事ができる。そうなると、この探索の舞台である集合 $\mathcal{N}$ がどのような構造を持っているのかに興味が湧いてくる。
集合の「構造」といっても位相とか距離など様々あるし研究方法も様々あるけれども、 その中で、 統計的モデルを微分幾何学的方法で研究する学問 が 情報幾何学 である。(広義には)
多様体
微分幾何学とは(微分幾何学的構造を備えた) 多様体 に関する学問であるので、まずは集合 $\mathcal{N}$ を多様体と見なす必要がある。多様体というのは局所的にはユークリッド空間と見なすことができるような空間で、地球と地図帳のようなイメージ。曲がった空間である地球について調べる為に、平らな空間である地図を用いる。
$d$次元 多様体 $\mathcal{M}$ はその部分集合 $U_{\varphi}\subset\mathcal{M}$ を $\mathbb{R}^d$ の開集合に移す全単射(座標近傍、チャートと呼ぶ)$ \varphi:U_{\varphi}\rightarrow\mathbb{R}^d$の集合(アトラスと呼ぶ)を備えている。アトラスは $\mathcal{M}$ 全体を覆い $\bigcup U_{\varphi}=\mathcal{M}$ 、任意の2つのチャート $\varphi,\psi$ の間の座標変換 $\varphi\circ\psi^{-1}$ が微分同相写像である(両立する という)必要がある。このへん、詳しくはこちら
一次元正規分布の集合 $\mathcal{N}$ の場合は(例えば) $ \varphi: p(x;\mu,\sigma) \mapsto (\mu,\sigma) $ という1つのチャートだけでアトラス$\{\varphi\}$を構成できる。(パラメトリックな統計モデルは同じようにして、パラメータ空間そのものをチャートする多様体と見なすことができる)
さて、これで正規分布の集合 $\mathcal{N}$ に座標系を導入できたが、これだけで $\mathcal{N}$ の幾何学的な構造が表現できている訳ではない。例えば、点 $p(x;0,1)$ と点$p(x;0,2)$ の距離を座標系上で計算して $\sqrt{(0-0)^2+(2-1)^2}=1$ とするのが妥当だろうか?
座標系上での距離をそのまま分布の距離として用いると、下図において青い分布同士の距離と、赤い分布同士の距離は等しくなる(それぞれ分散が等しく、平均値の差がどちらのケースでも等しいため)。しかし赤い分布同士の方がより重なりが大きく、近いと言えそうである。
このように、座標系が与えられたからといって座標系上での距離を直接用いるのは多くの場合には妥当ではない。身近な例でいえば、地図の上で定規で測った長さは地球上の実際の距離とは異なっている。
このように単に多様体であるだけでは、距離や角度といった概念は定まらず、リーマン計量 というものを備えた リーマン多様体 というものを考える必要がある。その説明のためには一旦 接ベクトル の説明をする。
接ベクトル、接ベクトル空間
接ベクトルとか接ベクトル空間というのはユークリッド空間に埋め込まれた多様体(例えば$\mathbb{R}^3$の中にある2次元球面)であれば、下図のように図示してイメージする事ができる。
https://upload.wikimedia.org/wikipedia/commons/thumb/e/e7/Tangentialvektor.svg/1920px-Tangentialvektor.svg.png
(ユークリッド空間に埋め込まれた多様体であれば)多様体 $\mathcal{M}$ 上を滑らかに移動する点 $\gamma(t)$ の $x=\gamma(0)$ における速度ベクトル
$$ v=\left.\frac{\mathrm{d}}{\mathrm{d}t}\gamma(t)\right|_{t=0} $$
の事を $\mathcal{M}$ の点 $x$ での 接ベクトル と呼び、接ベクトル全体の集合 (これはベクトル空間になる) を 接ベクトル空間 と呼ぶ。
(正規分布の集合もそうだが)一般の多様体の場合には
$$ \frac{\mathrm{d}}{\mathrm{d}t}\gamma(t)=\lim_{h\rightarrow0}\frac{\gamma(t+h)-\gamma(t)}{h} $$
を計算する事ができない。$\gamma(t)$ は $\mathcal{M}$ 上の点であって、点同士の演算は定められていないため。
(密度関数 $p(x)$ の値は実数だから四則演算できるのでは?と思うかもしれないが、があるのは確率分布の集合の構造であって、単なる関数としての密度関数集合に興味があるわけではない。)
ここで、 $\gamma:\mathbb{R}\rightarrow\mathcal{M}$ と $f:\mathcal{M}\rightarrow\mathbb{R}$ をそれぞれ滑らかな関数とする。
「滑らか」といっているのは、この軌跡をチャート上に移したとき(座標表示した時)に $C^\infty$ 級の関数になっているという意味。 $\gamma$ は $\mathcal{M}$ 上を移動する点の軌跡と考える事ができる。$\gamma$ の時間での微分は上で書いたように計算できないが、$f\circ\gamma:\mathbb{R}\rightarrow\mathbb{R}$ というものを考えると、
$$ \frac{\mathrm{d}}{\mathrm{d}t}(f\circ\gamma)(t)$$
を計算する事ができる。ここで、$\mathcal{M}$ 上の滑らかな実数値関数の集合 $C(\mathcal{M})$ から $\mathbb{R}$ への写像(微分作用素)
$$ v: f\mapsto \left.\frac{\mathrm{d}}{\mathrm{d}t}(f\circ\gamma)(t)\right|_{t=0} $$
を $\mathcal{M}$ の $x=\gamma(0)$ における 接ベクトル と呼ぶ。また、点 $x$ の接ベクトル全体の集合を 接ベクトル空間 と呼び $T_x\mathcal{M}$ と書く。 $T_x\mathcal{M}$ は
$$(au+bv)(f)=au(f)+bv(f)\quad(a,b\in\mathbb{R},u,v\in T_x\mathcal{M})$$
という演算によってベクトル空間となる。
微分作用素を接ベクトルと呼ぶのは違和感があるかもしれないが、特別な場合として $\mathcal{M}$ がユークリッド空間の場合は作用素としての接ベクトル空間と速度ベクトルとしての接ベクトル空間が同型になる事を示す事ができる。
具体的には $\mathcal{M}$ がユークリッド空間であれば、
$$ \frac{\mathrm{d}}{\mathrm{d}t}(f\circ\gamma)(t)=\sum_i\frac{\partial f}{\partial\gamma_i} \frac{\mathrm{d}\gamma_i}{\mathrm{d}t}$$
である事から、作用素と速度ベクトルの対応が分かる。ところで、この右辺を眺めると
標準基底 $e_i$ ($i$番目だけが$1$のベクトル) に対応する作用素は
$$ f\mapsto \frac{\partial f}{\partial\gamma_i}$$
となる。同じように一般の多様体 $\mathcal{M}$ についても、点 $x$ を含むチャート $\varphi$ を固定すると座標表示する事ができて、この座標系における接ベクトル空間の標準基底は
$$ \frac{\partial}{\partial\varphi_i}$$
という作用素になる。これを単に $\partial_i$ 書くこともある。つまり、今回の$\mathcal{N}$ の場合、接ベクトル空間は $(\mu,\sigma)$ を座標系として選べば
$$T_{p(x;\mu,\sigma)}\mathcal{N}=\left\{\left(a\frac{\partial}{\partial\mu}+b\frac{\partial}{\partial\sigma}\right)_{(\mu,\sigma)},\middle|,a,b\in\mathbb{R}\right\}$$
という空間である。
リーマン計量
多様体の各点での接ベクトルの長さや角度を考えたい。その為には、ベクトル空間が 内積 という構造を備える必要がある。内積というのは二項演算、 $\langle -,-\rangle_x: T_x\mathcal{M}\times T_x\mathcal{M}\rightarrow\mathbb{R}$であって
- 対称性: $\langle u,v\rangle_x = \langle v,u\rangle_x$
- 第一引数についての線形性: $\langle au+bv,w\rangle_x = a\langle u,w\rangle_x + b\langle v,w\rangle_x$
- 正定値性: $u\neq 0$ならば$\langle u,u\rangle_x = 0$
を満たすもの。これらから第二引数に対する線形性や、非退化性$u=0\Leftrightarrow\langle u,u\rangle_x=0$ が導かれる。
文脈から明らかな場合には $\langle u,v \rangle_x$ の代わりに $\langle u,v\rangle$ と書くこともある。
さて、 リーマン計量 というのは、多様体 $\mathcal{M}$ の各点 $x$ に内積を定める滑らかな対応
$$ g: x\rightarrow \langle-,-\rangle_x $$
の事をいう。(「滑らかな」というのを説明する為には接バンドルとかベクトル場とか、多様体の位相とかいろいろ必要だけど、ここでは割愛する)
そして、リーマン計量 $g$ の備わった多様体 $\mathcal{M}$ を リーマン多様体 という。
内積が定まると接ベクトル $v$ の長さ (ノルム) は
$$ ||v||=\sqrt{\langle v,v\rangle}$$
と計算する事ができ、接ベクトル $u,v$ のなす角度 $\theta$ は
$$ \cos\theta = \frac{\langle u,v\rangle}{||u||\ ||v||} $$
から求める事ができる。
内積は線形性をもつので、基底同士の内積が定まれば任意の内積が定まる。つまり多様体の接ベクトルの場合、点 $x$ の周囲で座標系を選んで成分表示した時
$$ g_{x,ij} = \left\langle\partial_i,\partial_j\right\rangle_x $$
を成分にもつ行列 $G_x$ を定めればリーマン計量が定まる。この行列を 計量テンソル と呼んだり、 $G_x$ 自体をリーマン計量と呼んだりする。
Fisher情報行列
冒頭の引用によれば Fisher情報行列 をリーマン計量として用いることで、一次元正規分布の集合をリーマン多様体とする事が出来るらしい。
確率密度関数 $p(X;\theta)$ で表される分布の Fisher情報行列は
$$
\mathcal{I}(\theta) = E\left[\frac{\partial}{\partial\theta}\ln p(X;\theta)\frac{\partial}{\partial\theta^T}\ln p(X;\theta)\right]
$$
で定義される。一次元正規分布
$$p(x;\mu,\sigma) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$$
に対して実際に計算してみると
$$\ln p(x;\mu,\sigma) = -\frac{(x-\mu)^2}{2\sigma^2} - \ln\sigma + \text{const.}$$
であるので
$$\frac{\partial}{\partial\mu}\ln p(x;\mu,\sigma) = \frac{x-\mu}{\sigma^2},\quad\frac{\partial}{\partial\sigma}\ln p(x;\mu,\sigma) = \frac{(x-\mu)^2}{\sigma^3}-\frac{1}{\sigma}$$
よってFisher情報行列の各成分は
$$
(\mathcal{I}(\mu,\sigma))_{11} = E\left[\frac{(x-\mu)^2}{\sigma^4}\right]=\frac{\sigma^2}{\sigma^4}=\frac{1}{\sigma^2}
$$
$$
(\mathcal{I}(\mu,\sigma))_{22} = E\left[\frac{(x-\mu)^4}{\sigma^6}-\frac{2(x-\mu)^2}{\sigma^4}+\frac{1}{\sigma^2}\right] = \frac{3\sigma^4}{\sigma^6}-\frac{2\sigma^2}{\sigma^4}+\frac{1}{\sigma^2} = \frac{2}{\sigma^2}
$$
であり、(1,2)(2,1)成分は $x-\mu$の奇数次の項のみなので$0$だから
$$\mathcal{I}(\mu,\sigma)=\frac{1}{\sigma^2}\begin{pmatrix}
1 & 0 \\
0 & 2
\end{pmatrix}$$
となる。
Fisher情報行列をリーマン計量として用いる
さて、以上で一次元正規分布の集合 $\mathcal{N}$ をリーマン多様体として扱えるようになったので、慣れる為にいくつか計算してみる。以後、成分表示されたベクトルは全て標準基底に関するものとする。
まず、点 $p(x;\mu,\sigma)$ でのリーマン計量は
$$G=\frac{1}{\sigma^2}\begin{pmatrix}
1 & 0 \\
0 & 2
\end{pmatrix}$$
なので、接ベクトル $u=(u_1,u_2),(v_1,v_2)$ の内積は
$$ \langle u,v \rangle = \frac{1}{\sigma^2}(u_1v_1+2u_2v_2) $$
となる。
例えば 点 $p(x;0,1)$ での接ベクトル $(1,1)$ のノルムは
$$ \sqrt{\frac{1}{1^2}(1\cdot1+2\cdot1\cdot1)} = \sqrt{3}$$
点 $p(x;0,2)$ での接ベクトル $(1,1)$ のノルムは
$$ \sqrt{\frac{1}{2^2}(1\cdot1+2\cdot1\cdot1)} = \frac{\sqrt{3}}{2}$$
こんな感じで、歪んだ空間であるから同じ成分の接ベクトルでも点によって長さが異なる。
点 $p(x;0,1)$ での接ベクトル $(0,1)$と$(1,1)$ のなす角は
$$\cos\theta = \frac{\sqrt{2}}{\sqrt{2}\sqrt{3}} = \frac{1}{\sqrt{3}}$$
となるので大体 $54.7$ 度となる。
リーマン多様体上の距離
リーマン計量を導入したことで、多様体の1点の周囲の様子は調べられるようになったが、複数の点にまたがる大域的な様子はまだ分からない。そこで、リーマン多様体上の2点間の距離について考える。
リーマン多様体上の滑らかな曲線 $\gamma:[a,b]\rightarrow\mathcal{M}$ に対して
$$ L(\gamma) = \int_{a}^b||\dot{\gamma}(t)||\mathrm{d}t $$
を曲線 $\gamma$ の 長さ という。ここで $\dot{\gamma}(t)$ というのは、$T_{\gamma(t)}\mathcal{M}$の接ベクトル
$$ \frac{\mathrm{d}}{\mathrm{d}t}(-\circ\gamma)(t)$$
の事。接ベクトルのノルムを点の移動する速度だと思えば、微小時間における(速さ)×(時間)を積分したものが点の移動した道のりになるということ。
正規分布のなすリーマン多様体 $\mathcal{N}$ での例として、座標系における以下の線分に対応する $\mathcal{N}$ 上の曲線の長さを計算してみる。
この曲線は、座標系においては $(t, t+1),\ t\in[0,1]$と書ける。接ベクトルの成分は各点で $(1,1)$ なので、点 $(u,\sigma)=(t,t+1)$ における接ベクトルのノルムは
$$||\dot{\gamma}(t)|| = \sqrt{\frac{1}{(t+1)^2}(1\cdot 1+2\cdot 1\cdot 1)}=\frac{\sqrt{3}}{t+1}$$
となるのでこの曲線の長さは
$$\int_0^1\frac{\sqrt{3}}{t+1}\mathrm{d}t = [\sqrt{3}\ln(t+1)]_0^1=\sqrt{3}\ln 2 $$
と計算できる。
このようにして2点を結ぶ曲線の長さを求める事ができるわけだが、そのような曲線の長さの下限を2点間の 距離 という。
測地線
さて、リーマン多様体 $\mathcal{M}$上の2点 $x,y$ を結ぶ曲線は無限に存在するので、その中で長さが最小になっているものを探すのは難しい問題である。
ただ、ある曲線 $\gamma(t)$ がそのような曲線である為の「必要」条件はそれが 測地線 であるということ。測地線というのは、曲線上の任意の点において局所的に見れば最短になっているような曲線の事。
測地線の長さが2点間の距離とならない例をあげる。例えば、下図のような円筒状の空間を考える。点$p,q$ を結ぶ赤い曲線は狭い範囲だけ見れば最短距離になっていて測地線になっているが、全体としては $p,q$ を結ぶ最短の曲線にはなっていない。青いのが最短である。
いずれにせよ、ある曲線が距離を与える為には少なくとも測地線であることが必要であるから、測地線である為の条件を調べる。その為には 変分法 を使用する。
測地線は曲線の局所的な状況のみを要請するから、調べている範囲が1つのチャート $\varphi$ に含まれていると仮定して良い。すると座標表示出来て、$x(t)=\varphi(\gamma(t))$ とおくと、曲線の長さは
$$L(x(t)) = \int_{t_1}^{t_2}\sqrt{\sum_{ij}g_{ij}\frac{\mathrm{d}x_i}{\mathrm{d}t}\frac{\mathrm{d}x_j}{\mathrm{d}t}}\mathrm{d}t $$
とかける。($g_{ij}$ はリーマン計量)
$x(t)$ が局所的にこれを最小とする条件は 変分法 で求める事ができる。今ここでその導出はやらないが、上の積分の中身を $F(x,\dot{x},t)$ ($\dot{x}=\mathrm{d}x/\mathrm{d}t$)とおくと、オイラー=ラグランジュ方程式
$$ \frac{\partial F}{\partial x}-\frac{\mathrm{d}}{\mathrm{d}t}\left(\frac{\partial F}{\partial\dot{x}}\right) = 0 $$
を満たす事が条件となる。これをさらに変形していくと、以下の 測地線の方程式 が得られる。導出は省略する。
$$\frac{\mathrm{d}^2x_k}{\mathrm{d}s^2}+\Gamma^k_{ij}\frac{\mathrm{d}x_i}{\mathrm{d}s}\frac{\mathrm{d}x_j}{\mathrm{d}s}=0 $$
ここで $s$ は 弧長パラメータ と呼ばれる変数で曲線の始点からの長さを表す。明示的に書けば
$$ s(t)=\int_{t_1}^{t}\sqrt{\sum_{ij}g_{ij}\frac{\mathrm{d}x_i}{\mathrm{d}t}\frac{\mathrm{d}x_j}{\mathrm{d}t}}\mathrm{d}t $$
また $\Gamma^k_{ij}$ は 第二種クリストッフェルの記号 と呼ばれるもので
$$\Gamma^k_{ij}=\frac{1}{2}\sum_{l}g^{kl}\left(\frac{\partial g_{lj}}{\partial x_i}+\frac{\partial g_{li}}{\partial x_j}-\frac{\partial g_{ij}}{\partial x_l}\right)$$
である。ここで添字が上についている $g^{kl}$は計量テンソルの逆行列 $G^{-1}$ の成分である。
リーマン多様体 $\mathcal{N}$ についてクリストッフェル記号を(大変だが)計算すると
$$\Gamma^1_{12}=\Gamma^1_{21}=-\frac{1}{x_2},\Gamma^2_{11}=\frac{1}{2 x_2},\Gamma^2_{22}=-\frac{1}{x_2},\quad\text{他は$0$} $$
となる。よって測地線の方程式は、$s$ での微分を $'$で表すと
$$ x_1'' - \frac{2x_1'x_2'}{x_2}=0\cdots(2)$$
$$ x_2'' + \frac{x_1'^2}{2x_2}-\frac{x_2'^2}{x_2}=0\cdots(3)$$
となる。ここで
$$\left(\frac{x_1'}{x_2^2}\right)' = \frac{x_1''x_2^2-2x_1'x_2'x_2}{x_2^4}=0\quad(\because (2))$$
より $x_1=ax_2^2\quad(4)$ ($a$は定数)
続いて、$(3)$ の両辺を $x_2$ で割ると
$$\frac{x_2''}{x_2} + \frac{x_1'^2}{2x_2^2}-\frac{x_2'^2}{x_2^2}=0$$
すなわち
$$\left(\frac{x_2'}{x_2}\right)' + \frac{x_1'^2}{2x_2^2}=0$$
よって $(4)$より
$$\left(\frac{x_2'}{x_2}\right)' + \frac{a}{2}x_1'=0$$
従って
$$\frac{x_2'}{x_2} + \frac{a}{2}x_1=b$$
($b$は定数)
以上より
$$ x_1'=ax_2^2,\quad x_2'=\left(-\frac{a}{2}x_1+b\right)x_2 \qquad(5)$$
となる。まず $a=0$ の時は
$$x_1'=0,\quad x_2'=bx_2$$
なので、$c$を定数,$d$を正の定数として
$$x_1=c, x_2=d\exp(bs)$$
となる。これは $x_2$ 軸に並行な直線である。
$a\neq 0$ の時は$(5)$の両式を割って
$$ \frac{\mathrm{d} x_2}{\mathrm{d}x_1}=\frac{-\frac{a}{2}x_1+b}{ax_2} $$
という変数分離系の微分方程式が得られるので、これを解いて
$$ax_1^2-4bx_1+2ax_2^2+c=0$$
が得られる。これは $x_2$軸上に中心がある楕円で、長軸は $x_1$ 軸と並行で離心率が$\sqrt{2}$であるようなもの。
以上で、正規分布の空間 $\mathcal{N}$ には2種類の測地線がある事が分かった。
$(\mu,\sigma)$ 座標系においてこれらを図示してみると下図のようになる。
続いて測地線に沿った長さを計算してみる。上の図はあくまで、測地線を座標系に写し取っものであって、この座標系の中での長さが実際の長さではないことに注意。
まず $\sigma$ 軸に平行なものについて。
この測地線は $a$を定数として $(\mu,\sigma)=(a,t),t>0$とパラメータ表示できるので、2点 $(\mu_1,\sigma_1),(\mu_1,\sigma_2),\sigma_1<\sigma_2$の間の長さは
$$ \int_{\sigma_1}^{\sigma_2}\sqrt{\frac{0\cdot 0 + 2\cdot 1 \cdot 1}{t^2}}\mathrm{d} t = \int_{\sigma_1}^{\sigma_2}\frac{\sqrt{2}}{t}\mathrm{d}t = \sqrt{2}[\ln t]_{\sigma_1}^{\sigma_2} = \sqrt{2}\ln\frac{\sigma_2}{\sigma_1}=\frac{\sqrt{2}}{2}\ln\frac{\sigma_2^2}{\sigma_1^2}$$
となる。この2点を通る測地線はこれ一つしかないので、これは2点間の距離でもある。つまり、 平均の等しい正規分布同士の距離は分散の比で決まる
下の図でいうと、$AB$ 間の距離と $BC$ 間の距離は等しい。
下の図の例でいうと、青と赤の距離と赤と黄の距離は等しい。
https://upload.wikimedia.org/wikipedia/commons/thumb/7/74/Normal_Distribution_PDF.svg/2560px-Normal_Distribution_PDF.svg.png
続いて、楕円状の測地線に沿った距離を計算してみる。この測地線は中心座標を $(\mu_0,0)$ として定数 $r>$ によって
$$ \mu = \mu_0 + \sqrt{2}r\cos t, \sigma = r\sin t $$
とパラメータ表示する事が出来る。よって、これに沿った距離は
$$ \int_{t_1}^{t_2}\sqrt{\frac{1}{\sigma^2}(\dot{\mu}^2+2\dot{\sigma}^2)}\mathrm{d}t=\int_{t_1}^{t_2}\frac{\sqrt{2}r}{\sigma} \mathrm{d}t = \int_{t_1}^{t_2}\frac{\sqrt{2}}{\sin t}\mathrm{d}t = \sqrt{2}\left[\ln\tan\frac{t}{2}\right]_{t_1}^{t_2} = \sqrt{2}\ln\frac{\tan(t_2/2)}{\tan(t_1/2)}$$
となる。これから分かることは、この測地線に沿った距離は 楕円の中心や径によらず偏角のみで決まる ということ。下図の例でいうと、AB間の距離とCD間の距離は等しい。
以前やった $\mathcal{N}$の2点 $p(x;0,1)$と$p(x;1,2)$ の距離を求めてみる。(2点を結ぶ線分を単純にとった場合の長さは $\sqrt{3}\ln 2\approx 1.2$ となるのだった。)
楕円
$$ \frac{(\mu-a)^2}{2r^2}+\frac{\sigma^2}{r^2}=1 $$
にそれぞれ代入して解くと $a=7/2, r=\sqrt{57/8}$ となる。
図示してみると下図で、赤い曲線が測地線。
偏角を求める。
$$ (\mu,\sigma) = (a+\sqrt{2}r\cos t, r\sin t) $$
とすると
$$ \tan\frac{t}{2}=\frac{\sin t}{1 + \cos t}=\frac{\sigma/r}{1+(\mu-a)/\sqrt{2}r}=\frac{\sqrt{2}\sigma}{\sqrt{2}r+\mu-a} $$
であるから、求める距離は
$$ \sqrt{2}\ln\frac{\tan t_2/2}{\tan t_1/2}=\sqrt{2}\ln\frac{\sqrt{2}\cdot 1}{\sqrt{2}r+0-a}\frac{\sqrt{2}r+1-a}{\sqrt{2}\cdot 2}=\sqrt{2}\ln\frac{\sqrt{57}-5}{2\sqrt{57}-14}\approx 1.19$$
この計算例でも確かに測地線に沿った方が長さが短くなっていることが確認できる。
この図形上での三角形は例えば以下のようになる。各頂点の角度を計算してみると下図のようになり(小数点第1位に丸めている)、三角形の内角の和が180°以下になるという 双曲空間 の特徴が現れている。
(続くかも