記事の概要
本記事は、以下で行われている『入門 情報幾何』読み会の勉強内容のメモです。本の著者は藤岡敦氏です。
本記事は、勉強会の進捗により随時更新いたします。
なお本記事の内容には、私の勉強不足による間違いが多々あると思うのでお気を付けください。
「書を読みて、その全てを信じれば、それは読まぬと等しきことなり」の精神で読んでいただければ幸いです。
(2023/10/29追記)
Qiita では LaTeXの表記が一部正常に表示されないので、LaTeXを使える方は、本記事の文章をコピペすると見やすくなると思われます。
『第1章 フィッシャー計量』について
1.3節を読む
この節では期待値と分散について、コイン投げの確率を例に説明しています。
前半の話は簡単なので詰まることはないと思います。もし、前半部分の話が分からないのでしたら、もっと基本的な確率の本を読むと、より詳しく解説しているはずです。
興味深いのは、後半の例1.13)と例1.14)です。それらの例では、コイン投げの確率変数を2通りの方法で定めています。
確率変数とは、標本空間の事象を何らかの実数に対応付ける写像のことです。
コイン投げの場合、標本空間は表か裏の2通り。$n$回のコイン投げでしたら、表と裏の$n$乗による、表(1回目)、表(2回目)、裏(3回目)…… 表(n回目)などのような表か裏が出るパターンの組み合わせが標本空間になります。
例1.13)の確率変数は、標本空間を「表が出る回数」の実数へ写像しています。
一方の例1.14)の確率変数は、標本空間を「表が何番目に出たか」の実数へ写像しています。
例えば3回コインを投げた場合の標本空間は以下の8通りです。
1回目 | 2回目 | 3回目 |
---|---|---|
裏 | 裏 | 裏 |
表 | 裏 | 裏 |
裏 | 表 | 裏 |
裏 | 裏 | 表 |
表 | 表 | 裏 |
表 | 裏 | 表 |
裏 | 表 | 表 |
表 | 表 | 表 |
この8つの標本を「表が出る回数」に写像すると、表が何回目に出たかは関係ないので、0,1,2,3のどれかの実数に写像されます。
そして「表が何番目に出たか」に写像すると、表が何回目に出たかで区別するので、0,1,2,3,4,5,6,7のどれかの実数に写像されます。
この数字はただの番号で何の意味もないので、例えば表、裏、裏を1と紐づけても、6に紐づけても、0に紐づけてもいいですが、(1.90)式のように紐づければ、標本空間と任意の回数の組み合わせを自動的に紐づけできます。
例1.13)と例1.14)の計算は特に難しいことはないと思います。
(1.87)式の二項定理の計算方法は他のところでもよく使うので覚えておくと便利です。
(1.93)式の1行目の式の和が2行目の式の和になるのを理解するのが少し難しいかもしれません。
1行目の和は、コインが$k$回表になるとして、その順番の組み合わせと、その順番に対応する$2^{i_k}$の和です。
それは2つの独立した和に分解できます。
1番目に表になるパターンは $\sum_{k=1}^n {}{n-1} C{k-1}$ 個、2番目に表になるパターンは$\sum_{k=1}^n {}{n-1} C{k-1}$個、……、n番目に表になるパターンは$\sum_{k=1}^n {}{n-1} C{k-1}$個です。その総和は1行目の和と同じ意味です。
どうして全てのパターンが同じ数 $\sum_{k=1}^n {}{n-1} C{k-1}$ になるかというと、自分が表になる番を除く$n-1$回中$0$回が表になる組み合わせ、$n-1$回中$2$回が表になる組み合わせ、……、$n-1$回中$n-1$回が表になる組み合わせの総和が、全てのパターンの中で自分が表になる番が登場するパターン数だからです。
先ほどの例では、自分が表になる番が1番目として、自分以外が$0$回表になる組み合わせが${}_2 C_0 = 1$の表裏裏で、自分以外が$1$回表になる組み合わせが${}_2 C_1 = 2$の表表裏と表裏表で、自分以外が$2$回表になる組み合わせが${}_2 C_2 = 1$ の表表表です。この回数の総和の4に$2^0$を掛けます。
そして自分が表になる番が2番目として、自分以外が$0$回表になる組み合わせが${}_2 C_0 = 1$の裏表裏で、自分以外が$1$回表になる組み合わせが${}_2 C_1 = 2$の表表裏と裏表表で、自分以外が$2$回表になる組み合わせが${}_2 C_2 = 1$の表表表です。この回数の総和の4に$2^1$を掛けます。
そして自分が表になる番が3番目として、自分以外が$0$回表になる組み合わせが${}_2 C_0 = 1$の裏裏表で、自分以外が$1$回表になる組み合わせが${}_2 C_1 = 2$の表裏表と裏表表で、自分以外が$2$回表になる組み合わせが${}_2 C_2 = 1$の表表表です。この回数の総和の4に$2^2$を掛けます。
組み合わせの意味を言葉で説明するのは難しいですが、1度分かってしまえば自明のことのように思えるので、じっくり頭の中で可能な組み合わせを網羅してみてください。
また、途中の和の計算では、
\begin{eqnarray}
z \equiv \sum_{r=1}^n 2^{r-1}
\end{eqnarray}
とすれば
\begin{eqnarray}2z-z = \sum_{r=2}^{n+1} 2^{r-1} - \sum_{r=1}^n 2^{r-1} = 2^n -1
\end{eqnarray}
になることを利用します。
続く分散の計算においても同様にして、
\begin{eqnarray}
z \equiv \sum_{r=1}^n 4^{r-1}
\end{eqnarray}
とすれば
\begin{eqnarray}4z-z = \sum_{r=2}^{n+1} 4^{r-1} - \sum_{r=1}^n 4^{r-1} = 4^n -1
\end{eqnarray}
になることを利用します。
1.4節を読む
コインが表になる確率について、例1.13)のように計算すれば簡単なのに、例1.14)では無駄に難しい組み合わせを考えました。
この例1.13)と例1.14)が本質的に同じ確率を表しています。このことを数学的に表現するのが十分統計量です。
例1.14))の確率空間から例1.13)の確率空間への写像$F$を考え、その$F$が全射であり、それらの確率関数で作る式(1.114)と(1.115)が確率のパラメータに依存しないことが示されました。
2つの確率空間の写像$F$が十分統計量であるということは、この2つの確率空間が同じ確率を表していることを意味しています。
本節の後半ではチェンツォフの定理の証明で使用する十分統計量の例を3つ紹介しています。
『第2章 フィッシャー計量』について
2.1節を読む
確率関数の間の距離を定めるフィッシャー計量というものを考えるのが本章の目的です。
「確率関数の間の距離」というのは一体どういうことなのでしょうか?
統計的モデル$S$はユークリッド空間の開集合の点をパラメータにしているので、$S$の元である確率関数は点とみなすことができる。
点が複数あれば、その点間に距離を考えることができる。そういう理屈のようです。
点と点の距離はユークリッド計量から求まりますが、確率関数の距離には確率関数の性質を反映したフィッシャー計量を使います。
まず、2.1節はユークリッド計量の復習をしています。
接ベクトルの定義、リーマン計量を用いた曲線の長さの定義などが出てきま。
ここで合成関数が出てきますが、私は合成関数の性質を完全に忘れていたので、ここで復習しておきます。
例えば、2つの関数$f(x)=x^2$と$g(t)=2t$があったとします。
ここで$f \circ g = f(g(t)) = (2t)^2 = 4t^2$になります。
一方で$g \circ f = g(f(x)) = 2x^2$になります。
合成関数の微分については以下のようになります。
\begin{eqnarray}
(f \circ g)' &=& \frac{\partial f}{\partial x} \Biggl|_{x=g(t)} \frac{\partial g}{\partial t}
= 2g(t)*g'(t) = 2*2t*2 = 8t
\end{eqnarray}
\begin{eqnarray}
(g \circ f)' &=& \frac{\partial g}{\partial t} \Biggl|_{t=f(x)} \frac{\partial f}{\partial x}
= 2*f'(x) = 2*2x = 4x
\end{eqnarray}
$\gamma$と$\gamma \circ \varphi$の長さが等しいことは以下より分かります。
パラメータ$s$の値域を$[\alpha,\beta]$として、$(\gamma \circ \varphi)(s)$の長さを考えます。
\begin{eqnarray}
\int_{\alpha}^{\beta} \sqrt{g((\gamma \circ \varphi)'(s), (\gamma \circ \varphi)'(s))} ds
\end{eqnarray}
$t = \varphi(s)$とすれば$dt = (\partial \varphi / \partial s) ds$より、長さは以下に変形できます。
\begin{eqnarray}
\int_{\varphi(\alpha)=a}^{\varphi(\beta)=b} \sqrt{g((\gamma \circ \varphi)'(s), (\gamma \circ \varphi)'(s))} \frac{\partial s}{\partial \varphi} dt
\end{eqnarray}
また合成関数の微分は
\begin{eqnarray}
(\gamma \circ \varphi)'(s) = \frac{\partial \gamma }{\partial t} \Biggl|_{t=\varphi(s)} \frac{\partial \varphi}{\partial s}
= \gamma'(t) \frac{\partial \varphi}{\partial s}
\end{eqnarray}
となるので、長さは以下に変形できます。
\begin{eqnarray}
&& \int_{a}^{b} \sqrt{g(\gamma'(t), \gamma'(t))} \frac{\partial \varphi}{\partial s} \frac{\partial s}{\partial \varphi} dt \\
&=& \int_{a}^{b} \sqrt{g(\gamma'(t), \gamma'(t))} dt
\end{eqnarray}
よって$\gamma \circ \varphi$の長さは$\gamma$の長さと同じ式になります。
2.1節の最後には、リーマン計量の例、ユークリッド計量とポアンカレ計量が挙げられます。
次いでポアンカレ上半面の長さの最短距離を求めます。
2点$(0, y_0)$と$(0, y_1)$を結ぶ任意の曲線の長さ$L(\gamma_2)$の最小値が、2点を結ぶ直線の長さ$L(\gamma_1)$であることが示されます。
ですが、2点$(\cos \theta, \sin \theta)$と$(-\cos \theta, \sin \theta)$を結ぶ直線の長さ$L(\gamma_3)$よりも円弧の長さ$L(\gamma_4)$の方が短いことが示されます。
各長さの計算は、初歩的な積分の計算しか使わないので簡単だと思いますが、$L(\gamma_4)$の長さの計算だけは少し難しいかもしれません。
\begin{eqnarray}
L(\gamma_4) &=&
\int_0^1 \frac{\sqrt{(\pi-2\theta)^2 (\sin(\theta+(\pi-2\theta)t)^2 + (\pi-2\theta)^2 (-\cos(\theta+(\pi-2\theta)t)^2} }{\sin(\theta+(\pi-2\theta)t)} \\
&=& \int_0^1 \frac{\pi-2\theta}{\sin(\theta+(\pi-2\theta)t)}
\end{eqnarray}
$\theta+(\pi-2\theta)t = x$とおくと、$(\pi-2\theta) dt = dx$なので
\begin{eqnarray}
L(\gamma_4) &=&
\int_{\theta}^{\pi-\theta} \frac{\pi-2\theta}{\sin x} \frac{1}{\pi-2\theta}dx
= \int_{\theta}^{\pi-\theta} \frac{1}{\sin x} dx
\end{eqnarray}
ここで
\begin{eqnarray}
\sin x &=& \sin 2 \frac{x}{2} = 2 \sin \frac{x}{2} \cos \frac{x}{2}
= 2 \frac{\sin \frac{x}{2}}{\cos \frac{x}{2}} \cos^2 \frac{x}{2} \\
&=& 2 \tan \frac{x}{2} \frac{1}{1 + \tan^2 \frac{x}{2}}
\end{eqnarray}
なので$\tan \frac{x}{2} = y$として$\sin x = 2y/(1+y^2)$になります。
すると、
\begin{eqnarray}
\frac{dy}{dx}
&=& \Bigl (\tan \frac{x}{2} \Bigl)'
= \Bigl(\frac{\sin \frac{x}{2}}{\cos \frac{x}{2}} \Bigl)'
= \frac{1}{\cos^2 \frac{x}{2}} \Bigl(\frac{x}{2}\Bigl)' \\
&=& \frac{1}{2} \frac{1}{\cos^2 \frac{x}{2}}
= \frac{1}{2} \Bigl(1 + \tan^2 \frac{x}{2} \Bigl)
= \frac{1}{2} (1+y^2)
\end{eqnarray}
より、$dx = 2dy/(1+y^2)$となります。よって
\begin{eqnarray}
L(\gamma_4) &=&
= \int \frac{1}{\sin x} dx
= \int \frac{1+y^2}{2y} \frac{2}{1+y^2} dy
= \int \frac{1}{y} dy
= [\log y] = [\log \tan \frac{x}{2}] \\
&=& \Bigl[\log \tan \frac{\theta+(\pi-2\theta)t}{2} \Bigl]_0^1
= -2 \log \tan \frac{\theta}{2}
\end{eqnarray}
となります。
続く正定値の話は、ベクトルを成分と基底に分けて計算する話です。
2.2節を読む
本節では、ユークリッド空間の開集合の間の写像の微分について解説しています。
まず、接ベクトルの集合である接ベクトル空間がユークリッド空間の開集合に等しいことが示されます。
続いて、写像の微分からヤコビ行列を導出します。
先ほどと同じように、合成関数の微分を使います。
合成関数の微分なので、$f_i$について$x_i$について偏微分したものに対して、$x$に$\gamma(t_0)$を代入したものと、$\gamma_i$について$t$で微分した積の和になります。
次に$f$が単射であることと$\mathrm{Ker} = { 0 }$が同値であることが証明されます。
ここで導入される「はめ込み」について、WiKiでは以下のように定義されています。(日本語版は英語版を訳しただけのようです。日本語版は訳が少し不自然だったので英語版の方を引用します。)
an immersion is a differentiable function between differentiable manifolds whose differential (or pushforward) is everywhere injective.
(はめ込みとは、可微分多様体間の微分可能な関数である。その関数の微分(もしくは押し出し)は全ての点において単射となる)
本書においては、図2.5の$f$が、2つの可微分多様体$R^m$と$R^n$の間を写像する、微分可能な関数です。
$(df)_p$が点$p$における$f$関数の微分、もしくは$f$による点$p$の押し出しです。
任意の点$p$において$(df)_p$が単射ならば、$f$ははめ込みと呼ばれます。
勉強会においては、「はめ込み」と「埋め込み」の違いについて議論されました。
はめ込みや埋め込みはトポロジーなどでよく使われています。
「ざっくりわかるトポロジー」という本から引用すると、2つの違いは以下のように説明されています。
図形Xから図形Yへの埋め込みは、単射で、連続で、逆写像が連続である写像
はめ込みは、連続で、逆写像が連続である写像。単射でなくてもよい
はめ込みは単射でなくてもいい? これは本の定義と矛盾します、どういうことなのでしょうか?
ここでWiKiを読むと以下のように説明されています。
A smooth embedding is an injective immersion f : M → N that is also a topological embedding, so that M is diffeomorphic to its image in N.
(滑らかな埋め込みは、単射なはめ込み$f:M \to N$であり、位相的な埋め込みでもある。すなわち、$M$と$f(M)$(NにおけるMの像)は微分同相である。)
An immersion is precisely a local embedding
(はめ込みとは、正確には局所的な埋め込みである)
要するに、はめ込みは局所的には滑らかで、その微分は単射であるが、グローバルには特異点があって、単射でなくてもいいということのようです。
そして局所的に限定しているのならば、はめ込みと埋め込みは同じものとして扱ってよさそうです。
次には、十分統計量を用いてはめ込みの実例が紹介されます。
例2の3は全単射なので、例えば$\xi_1$を写像した$\xi_{F_n^{-1}(1)}$は$\xi_i$のどれか1つに必ず等しくなります。
(2.44)式において、「はめ込みの微分が単射であること」と、「(2.40)式のヤコビアンの階数が空間の次元に等しい」のは等価であることを示しました。
よってある写像がはめ込みであるか否かを判定する為には、そのヤコビアンの階数が空間の次元に等しいかを調べればいいということになります。
写像 $F$ は全単射なので、$F_n^{-1}(i)$は ${ 1,2, \cdots , n }$ のどれか1つの値$k$になるので、$\xi_{F_n^{-1}(i)} $は ${ \xi_1, \xi_2, \cdots , \xi_n }$ のどれか1つの値$\xi_x$になります。
そこで $\mathbf{e}_{F_n(i)}$ を$F_n^{-1}(i)$で写像された数字に対応する$k$番目だけが1で、それ以外が0になる基本ベクトルとすると、
\begin{eqnarray}
\sum_{j=1}^n \frac{\partial \xi_{F_n^{-1}(i)}}{\partial \xi_j} = \sum_{j=1}^n \delta_{F_n(i),j} = \mathbf{e}_{F_n(i)}
\end{eqnarray}
と表せます。よって
\begin{eqnarray}
\Phi'(\xi) &=&
\Biggl(\sum_{j=1}^n \frac{\partial \xi_{F_n^{-1}(1)}}{\partial \xi_j} \frac{\partial \xi_j}{\partial t}, \cdots,
\sum_{j=1}^n \frac{\partial \xi_{F_n^{-1}(n)}}{\partial \xi_j} \frac{\partial \xi_j}{\partial t}\Biggl) \\
&=& (\xi'_1, \cdots , \xi'_n)
\begin{bmatrix}
\mathbf{e}_{F_n(1)} \\
\vdots \\
\mathbf{e}_{F_n(n)} \\
\end{bmatrix}
\end{eqnarray}
となるので、ヤコビアンの階数はnであり、はめ込みの条件を満たします。
例2.4は
\begin{eqnarray}
(\Phi_{m,n})_i : \xi^i \to (\xi^i/m, \cdots, \xi^i/m) &=& (\eta^{1+(i-1)*m}, \cdots , \eta^{m+(i-1)*m}) \\
&=& \eta^{i*m} (1, \cdots , 1)
= \eta^{i*m} \mathbf{e}^{(i)}
\end{eqnarray}
の写像とみなせます。
写像の微分は
\begin{eqnarray}
\frac{\partial }{\partial \xi^i} \to \frac{1}{m} \sum_{j=1}^m \frac{\partial }{\partial \eta^{j+(i-1)*m}}
\end{eqnarray}
となります。よってヤコビアンの各成分は以下のようになります。
ここで$k,t = 1, \cdots , n$とします。
\begin{eqnarray}
\frac{\partial (\Phi_{m,n})_k}{\partial \xi^t}
&=& \frac{1}{m} \sum_{i=1}^m \frac{\partial (\Phi_{m,n})_k}{\partial \eta^{(i-1)+t*m}} \\
&=& \frac{1}{m} \sum_{i=1}^m \frac{\partial \eta^{(i-1)+k*m} e_{i}^{(k)}}{\partial \eta^{(i-1)+t*m}}
= \frac{1}{m} \sum_{i=1}^m \delta_{kt} e_{i}^{(k)}
= \frac{1}{m} e_{i}^{(t)}
\end{eqnarray}
これで$k=t$の対角成分のみが残るn×n行列(2.51)式が得られます。
例の2.5も同様です。
本節の最後には、はめ込みを用いてリーマン計量が定義されます。
はめ込み$f$によるリーマン計量$g$の誘導計量については、 以下の東京工業大学の幾何学特論第四の講義資料を参考にしました。
この資料によると、$f$がはめ込みであることと内積$g_{f(p)}$の正定性から、内積$(f*g)_p$の正定性が得られることを以下のように証明しています。
ここで
\begin{eqnarray}
(df)_p(X) = \frac{d}{dt}f \circ \gamma(t_0)
\end{eqnarray}
について
\begin{eqnarray}
(df)_p
\end{eqnarray}
を
\begin{eqnarray}
df = f_{*}
\end{eqnarray}
と書くことにします。
I) $f$がはめ込みの場合
$g$が正定値なので、$X \in T_p M$に対して
\begin{eqnarray}
f*g(X,X) = g(f_{*} X, f_{*} X) \geq 0
\end{eqnarray}
となります。
$f_{*}X = 0$ ならば $g(f_{*}X, f_{*}X) = 0$ になります。
$f$は単射なので $f_{*}X = 0$ ならば $X=0$ になります。
よって$f*g$は正定値になります。
II) $f*g$が正定値の場合
任意の$X \in T_p M$に対して
\begin{eqnarray}
f*g(X,X) = g(f_{*}X, f_{*}X) = g(0,0) = 0
\end{eqnarray}
となるので、$f*g(X,X)=0$になります。
$f*g$は正定値なので$X=0$になります。
よって$\mathrm{Ker} f_{*} = { 0 }$となるので$f_{*}$は単射になります。
2.3節を読む
ここで十分統計量を考えます。
まず事象空間として可算集合を考えます。
事象空間とは、実際に発生する事象の集合のことです。
コインの事象空間は{表,裏}で、サイコロの事象空間は${1,2,3,4,5,6}$です。事象は1個、2個と数えられるものなので、汎用的に抽象化した事象空間が可算集合になります。
(私は詳しくないので知らないだけで、もしかしたら小数点以下の事象を考える場合もあるかもしれませんが)
そして事象$i \in \Omega_n$の発生確率が$\xi_i$です。
ここで(2.59)式の条件を満たす$\xi_i$の閉集合$\bar{\Xi}$を考えます。確率が0以上になっているのが、境界を含むということです。
1.4節では0より大きい発生確率の開集合になっていたのと、この点が異なります。
注釈の閉集合の定義について差集合の記号が出てきます。$\mathbf{\mathrm{R}}^n \backslash A$は、$\mathbf{\mathrm{R}}^n$の要素であり、$A$の要素でないものの集合のことです。
要するに、$\mathbf{\mathrm{R}}^n \backslash A$は、$\mathbf{\mathrm{R}}^n$から$A$だけを切り抜いた集合です。
境界は$\mathbf{\mathrm{R}}^n \backslash A$と$A$のどちらかにないといけませんが、$\mathbf{\mathrm{R}}^n \backslash A$が開集合ならば、境界を持つのは$A$の方です。よって$A$が閉集合になります。
この発生確率に対して(2.60)の確率関数を定めたものが、統計的モデル$\bar{S}$です。
$\bar{S}$は、境界を持たない内部$S$と境界$\partial \bar{S}$の和集合$\bar{S} = S \cup \partial \bar{S}$になります。
統計空間の間の写像についても、はめ込みを考えることができます。
m次元統計的モデルからn次元統計的モデルへの写像$\Phi$が「はめ込み」であると仮定します。
$\Phi(\bar{S}_m)$も$\Omega_n$上のn次元統計的モデルなので、(2.67)を満たします。
ここで$\Phi(\bar{S}_m)$に関する十分統計量を考えます。
事象空間の間の写像$F:\Omega_n \to \Omega_m$を全射として、この$F$における(2.70)式が$\xi$に依存しないのならば、$F$を$\Phi(\bar{S}_m)$に関する十分統計量と呼びます。
このような$F$を持つ$\Phi$をマルコフはめ込みと呼びます。
例2.6から例2.9まではマルコフはめ込みの具体例です。
例2.6から例2.8は、1.4節で全射$F$が十分統計量であることを示し、2.2節ではめ込みであることを示しているので、特に計算するまでもなくマルコフはめ込みと分かります。
例2.9については、はめ込みであることと十分統計量であることの2つを示してあげないといけません。
例2.9の写像は、写像された空間の次元を1つ増やし、n+1番目の成分は$1-\sum_{i=1}^n \xi_i$になります。
\begin{eqnarray}
\sum_{i=1}^{n+1} \bar{\Phi}_i = \sum_{i=1}^{n} \xi_i + 1 - \sum_{i=1}^{n} \xi_i = 1
\end{eqnarray}
なので、(2.64)の境界の条件を満たします。よって$\bar{\Phi}$はn+1番目の成分が$1-\sum_{i=1}^n \xi_i$のn+1次元空間の境界$\partial \Xi_{n+1}$の部分集合とみなせます。
ヤコビアンは以下の$\bar{\Phi}$の微分から求まります。
\begin{eqnarray}
\frac{\partial (\bar{\Phi})_i}{\partial \xi_j} &=& \frac{\partial \xi_i}{\partial \xi_j} = \delta_{ij}
\end{eqnarray}
\begin{eqnarray}
\frac{\partial (\bar{\Phi})_{n+1}}{\partial \xi_j} &=& \frac{\partial (1-\sum_{i=1}^n \xi_i)}{\partial \xi_j} = - \sum_{i=1}^n \delta_{ij} = - 1
\end{eqnarray}
よって(2.84)が求まり、その階数が$n$になるので、はめ込みであることが示されます。
全射はn+1次元空間からn次元空間への写像で、n+1次元空間のn+1番目の成分に対応する元がn次元空間にはありませんが、全射なので何らかの元には必ず対応させないといけないので、0と結びつけて$\bar{F}_n(n+1)=0$とします。
よって0と結びつくのは$\bar{F}_n(0)$と$\bar{F}_n(n+1)$になったので、確率関数の第0成分$q(0;\bar{\Phi}_n(\xi))$は、第0成分$p(0;\bar{\Phi}_n(\xi))$と第n+1成分$p(n+1;\bar{\Phi}_n(\xi))$の和になります。
\begin{eqnarray}
q(i;\bar{\Phi}_n(\xi)) = \sum_{j \in \bar{F}^{-1}(i)} p(j;\bar{\Phi}_n(\xi))
\end{eqnarray}
については、$j \in \bar{F}^{-1}(i)$に含まれる成分が$i$のみなので(2.90)式になります。
続く計算により、十分統計量であることも示され、マルコフはめ込みであることが証明できます。
「情報幾何学の基礎」におけるマルコフ埋め込みの定義との違い
余談になりますが、「情報幾何学の基礎」の5.1節におけるマルコフ埋め込みの定義が、(はめ込みと埋め込みの違いがあるとはいえ)本書と同じに見えないので戸惑いました。
「情報幾何学の基礎」の方は、より確率分布空間の幾何学的な構造に注目しているかんじです。
例えば、次元数の異なる統計的モデリング間(2次元と3次元)を写像で結ぶことについて、
データの同一視を介して$S_{2-1}$の幾何構造が$S_{3-1}$の幾何構造から誘導されるはずである
と強調したり、幾何学的構造の頂点を事象に対応させたりしています。
そういうことを踏まえた上で定義を見ると、P109の定義の(i)と(ii)は、写像された事象と確率であり、本書において、写像された事象空間上の統計的モデル$\Phi(\bar{S}_m)$が存在しているのと似ています。
一方で(iii)については、全射$F$の満たすべき条件を定めているのですが、本書と大きく異なると思いました。
「情報幾何学の基礎」の方では$F:x_i \to y_i$により全射された像を具体的に(iii)の式で定めています。
一方で本書では、$F$の像の具体的な式は定めずに、$F$による(2.70)式が確率に依存しないという条件だけを定めています。
2.4節を読む
この節では、マルコフはめ込みである写像に対して不変な(0,2)型テンソルを考えます。
まずマルコフはめ込みとは無関係な一般の(0,2)テンソルの定義を紹介します。これは特に難しいことは何もありません。
次の話は私はよく分かりませんでした。
境界を含まない開集合(つまり「内部」)である$\Xi_n$の接ベクトル全体の集合は$R_n$になる。これは2.1節で証明した話です。これは分かります。
(2.93)式を満たす境界$\partial \bar{\Xi}_n$の接ベクトルは(2.94)のようになる。これも分かります。高校数学でやるような初歩的な境界上の点の話です。
ですが
$\partial \bar{\Xi}_n$上ではこのような接ベクトルをとる写像を考えることにより、$\bar{\Xi}_n$上の$C^{\infty}$級の(0,2)型テンソル場を定めることができる
という文章は、よく理解できませんでした。ですが、そういうものだと受け入れてしまえば、以降の話を理解するのに特に支障はないので、あまり気にしないことにします。
また、最初に「不変性という統計学的に自然な要請」という言葉が出てきます。これはどのような意味なのでしょうか。
「情報幾何学の基礎」P108とP109の説明が「統計学的に自然な要請」の説明になっているかもしれません。
確率分布空間の幾何学的構造もラベルの取り替えに対して不変であるべきである。
任意に固定した混合比で事象1と2が生じる確率分布全体からなるS3の部分多様体MとS2とは統計学的に同等である。
統計的同等性を持つ部分多様体を対応付ける写像がマルコフ埋め込みである
ラベルの取り替え、つまりマルコフはめ込みの写像による座標変換で結ばれる2つの幾何学的空間が統計的に同等であるというわけです。(2.95)式が、その統計的同等性を示しているのだと私は解釈しました。
よってチェンツォフの定理は、マルコフはめ込みで結ばれる2つの幾何学的空間が、統計的に同等な(2.95)式であるためには、(2.96)式を満たしていないといけない、という定理なのだと思います。
本節ではチェンツォフの定理の必要条件の証明をします。
例2.6から例2.9までおいて扱った$\Phi$による$g$の誘導計量を考えます。
(2.57)式に、それぞれの例の場合のヤコビアンを代入していきます。
途中計算が分からずに悩んでいたところ、松森至宏氏のツイッターに計算メモがあり、大変参考になりました。
証明の第一段階では、(2.57)より
\begin{eqnarray}
(\Phi_n^* g_n)_{\xi_{n,t}}(\mathbf{e}_i, \mathbf{e}_j)
&=& (g_n)_{\Phi_n(\xi_{n,t})} (\mathbf{e}_i J_{\Phi_n(\xi_{n,t})}, \mathbf{e}_j J_{\Phi_n(\xi_{n,t})})
\end{eqnarray}
となるので、(2.48)を代入すると、$e_i$との積で残るのは$e_{F_n(i)}$のみなので(2.98)が求まります。(1Xnの単位行列とnXnの単位行列の集合の積です。)
ここで(2.99)と(2.100)で$\lambda_n$と$\mu_n$を定義しています。$g_m$を$g_{mn}$に置き換えれば、$\lambda_{mn}$と$\mu_{mn}$になります。
また、(2.99)は$(e_i,e_i)$はiに依存せず、全ての$i$に対して同じ値になります。
$(e_i,e_j)$は$i,j$に依存しないので、$i \neq j$ならば(2.100)は全ての$i,j$に対して同じ値になります。
これは$g_n$がある定数行列$A$と$B$を用いて $(g_n){ij} = \delta{ij} A + B$ と表現できることを示しています。
また$\Phi^* g_n = g_m$なので(2.98)と(2.100)は同じになります。
証明の第二段階では、(2.57)より
\begin{eqnarray}
(\Phi_n^* g_n)_{\xi_{n,t}}(\mathbf{e}_i, \mathbf{e}_j)
&=& (g_{mn})_{\Phi_{m,n}(\xi_{n,t})} (\mathbf{e}_i J_{\Phi_{m,n}(\xi_{n,t})}, \mathbf{e}_j J_{\Phi_{m,n}(\xi_{n,t})})
\end{eqnarray}
となるので、(2.51)を代入し(2.101)が求まります。
ここで $\mathbf{e}i$ と(2.51)をかけると $ \mathbf{e}{(i-1)m+k} $ になる理由は、 $mn$ 行列の内、 $ (i-1)m $ 番目の行と列から $im$ 番目の行と列までが残るからです。
$\Phi^* g_{mn} = g_n$なので($\Xi_{mn}$上の計量は$g_{mn}$で、$\Xi_n$上の計量は$g_n$)、$\mu_{mn}(t)=\mu_n(t)$になります。
(2.101)はnに依存しないので、$\mu_n(t)$もnに依存しないというわけです。
$i \neq j$の場合は基底$e_{(i-1)m+k}$と$e_{(j-1)m+t}$が一致することはありません。
一方で、$i=j$の場合は$k=1, \cdots, m$と$t=1, \cdots, m$の組み合わせの内、$k=t$になるm個について、基底$e_{(i-1)m+k}$と$e_{(i-1)m+t}$が一致します。
$k \neq t$になる$m^2-m$個については基底は一致しません。
よって
\begin{eqnarray}
(g_{mn})_{\xi_{mn,t}} \Biggl( \frac{m}{m^2}(e'_i, e'_i) + \frac{m^2-m}{m^2}(e'_i, e'_j) \Biggl)
\end{eqnarray}
から(2.103)が求まります。
$\Phi^* g_{mn} = g_n$なので
\begin{eqnarray}
(\Phi^*_{m,n} g_{mn})_{\xi_{mn,t}} (e_i,e_i)
&=& (g_n)_{\xi_{n,t}} (e_i,e_i) \\
&=& \lambda_n(t)
\end{eqnarray}
より
\begin{eqnarray}
\frac{1}{m} \lambda_{mn}(t) + \frac{m-1}{m} \mu(t)
&=& \lambda_n(t)
\end{eqnarray}
なので(2.104)式が求まります。
$mn$は$m$が任意の値を取れるので$n$の値とは関係なく任意の値になるため、$n$とは違う値とみなします。よって左辺に$n$の項はないので、右辺は$n$に依存しません。左辺を$\nu(t)$とすれば(2.105)式が求まります。
証明の第三段階では、(2.57)式に(2.55)式を代入します。
\begin{eqnarray}
(\Phi^*_{m} g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )} (e_i,e_j)
&=& (g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )}
\Biggl(
\frac{1}{m_i} \sum_{k=1}^{m_i} e^{'(i)}_{k} \ \ , \frac{1}{m_j} \sum_{t=1}^{m_j} e^{'(j)}_{t}
\Biggl)
\end{eqnarray}
$i \neq j$の場合は、第2段階と全く同じように、
\begin{eqnarray}
(\Phi^*_{m} g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )}
= (g_n)_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )}
\end{eqnarray}
なので、上式は$\mu(t)$になります。
$t = \sum_{k=1}^n \frac{m_k}{m}t$より(2.107)が求まります。
$i=j$の場合は、基底が同じになる組み合わせが$m_i$個、一致しない組み合わせが$m_i^2-m_i$個なので
\begin{eqnarray}
(\Phi^*_{m} g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )} (e_i,e_i)
&=& (g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )}
\Biggl(
\frac{1}{m_i} \sum_{k=1}^{m_i} e^{'(i)}_{k} \ \ , \frac{1}{m_i} \sum_{t=1}^{m_i} e^{'(i)}_{t}
\Biggl) \\
&=&
\frac{1}{m_i^2}
\Bigl(
m_i (g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )} (e^{'(i)}_{k}, e^{'(i)}_{k})
+ (m_i^2 - m_i ) (g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )} (e^{'(i)}_{k}, e^{'(i)}_{t})
\Bigl) \\
&=&
\frac{1}{m_i^2}
(
m_i \lambda_m(t)
+ (m_i^2 - m_i ) \mu(t)
) \\
&=&
\frac{1}{m_i^2}
(
m_i (m \nu(t) + \mu(t))
+ (m_i^2 - m_i ) \mu(t)
) \\
&=&
\frac{m}{m_i} \nu(t) + \mu(t)
\\
&=&
\frac{m}{m_i t} \Biggl( \sum_{k=1}^n \frac{m_k}{m}t \Biggl) \nu \Biggl(\sum_{k=1}^n \frac{m_k}{m}t \Biggl) + \mu \Biggl(\sum_{k=1}^n \frac{m_k}{m}t \Biggl)
\end{eqnarray}
最後の式の展開には$t = \sum_{k=1}^n \frac{m_k}{m}t$を用いました。
ここで$\frac{m_i t}{m} = \xi_i$として、$i=j$の場合と$i \neq j$の場合をまとめれば(2.110)式になります。
証明の第四段階は(2.110)式をベクトルの計算に拡張したものになります。普通に計算するだけで、特に難しいことはありません。
2項目は境界の接ベクトルの条件(2.94)式より0になります。
証明の第五段階では、以下のmatさんの計算が参考になります。
\begin{eqnarray}
(\bar{\Phi}^*_2g_3)_{(\xi,\eta)}(e_1,e_1)
&=& (g_3)_{(\xi,\eta, 1-\xi-\eta)}(e'_1-e'_3, e'_1-e'_3)
\end{eqnarray}
(2.111)式に$v_i=(1,0,-1)$、$w_i=(1,0,-1)$、$\xi_i=(\xi,\eta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*1}{\xi} + \frac{0*0}{\eta} + \frac{(-1)*(-1)}{ 1-\xi-\eta} \Biggl) \nu(\xi+\eta+1-\xi-\eta) \\
&=& \Biggl( \frac{1}{\xi} + \frac{1}{ 1-\xi-\eta} \Biggl) \nu(1)
\end{eqnarray}
から(2.113)式が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_2g_3)_{(\xi,\eta)}(e_1,e_1)
&=& (g_2)_{(\xi,\eta)}(e_1,e_1)
\end{eqnarray}
(2.110)式に$v_i=(1,0)$、$w_i=(1,0)$、$\xi_i=(\xi,\eta)$を代入して
\begin{eqnarray}
(g_2)_{(\xi,\eta)}(e_1,e_1)
&=& \frac{\xi+\eta}{\xi} + \mu(\xi+\eta)
\end{eqnarray}
が求まります。
この式は(2.113)式と等しいので、(2.114)式が求まります。
同様にして
\begin{eqnarray}
(\bar{\Phi}^*_2g_3)_{(\xi,\eta)}(e_1,e_2)
&=& (g_3)_{(\xi,\eta, 1-\xi-\eta)}(e'_1-e'_3, e'_2-e'_3)
\end{eqnarray}
(2.111)に$v_i=(1,0,-1)$、$w_i=(0,1,-1)$、$\xi_i=(\xi,\eta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*0}{\xi} + \frac{0*1}{\eta} + \frac{(-1)*(-1)}{ 1-\xi-\eta} \Biggl) \nu(\xi+\eta+1-\xi-\eta) \\
&=& \frac{1}{ 1-\xi-\eta} \nu(1)
\end{eqnarray}
から(2.115)が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_2g_3)_{(\xi,\eta)}(e_1,e_2)
&=& (g_2)_{(\xi,\eta)}(e_1,e_2)
\end{eqnarray}
(2.110)に$v_i=(1,0)$、$w_i=(0,1)$、$\xi_i=(\xi,\eta)$を代入して
\begin{eqnarray}
(g_2)_{(\xi,\eta)}(e_1,e_2)
&=& \mu(\xi+\eta)
\end{eqnarray}
が求まります。
この式は(2.115)式と等しいので、(2.116)式が求まります。
そして(2.117)式から(0,2)型テンソルに対するチェンツォフの定理が求まります。
2.5節を読む
本節ではFisher計量を定義しています。
これが本章の目的である、確率関数の2点間の距離を定める計量です。前節ではマルコフはめ込みに対して不変な統計的モデルを考えました。
この統計的モデル上のリーマン計量がFisher計量です。
本節の計算は簡単なので、計算過程について特に補足するところはありません。チェンツォフの定理から(2.124)が求まります。
ここで(2.121)は実際に展開すれば(2.119)と同じになります。
\begin{eqnarray}
(g_n)_{\xi}(\mathbf{v}, \mathbf{v})
&=& \Biggl( \sum_{i=1}^n \Bigl(1- \sum_{t=1}^n \xi_t \Bigl) \Bigl(-\sum_{t=1}^n \delta_{it} \Bigl)^2 \Biggl)\Biggl( \frac{1}{1- \sum_{t=1}^n \xi_t} \Biggl)^2
+ \sum_{k=1}^n \Biggl( \sum_{i=1}^n \frac{1}{\xi_k} \delta_{ik} \Biggl)^2 \xi_k \\
&=& \Biggl( \sum_{i=1}^n v_i \Biggl)^2 \frac{1}{1- \sum_{t=1}^n \xi_t} + \sum_{k=1}^n \frac{v_k^2}{\xi_k}
\end{eqnarray}
また、命題2.5より、n次実対称行列が半正定値であることが示されます。
\begin{eqnarray}
\mathbf{x} (\mathbf{a}^t \mathbf{a} )^t \mathbf{x}^t
&=& \mathbf{x} \mathbf{a}^t \mathbf{a} \mathbf{x}^t
= (\mathbf{a} \mathbf{x}^t)^t (\mathbf{a} \mathbf{x}^t)
= \langle \mathbf{x}, \mathbf{a} \rangle \geq 0
\end{eqnarray}
例2.10)と例2.11)は、Fisher情報量の具体的な計算例を示しています。
例2.10)の確率関数については
\begin{eqnarray}
\log p(k;\xi)
&=& k \log \xi + (n-k) \log (1-\xi) + 定数項
\end{eqnarray}
\begin{eqnarray}
\frac{\partial \log p(k;\xi)}{\partial \xi}
&=& \frac{k}{\xi} + \frac{n-k}{1-\xi}
\end{eqnarray}
となるので、1章で示した以下の2項定理の公式を使用すれば(2.130)が求まります。
\begin{eqnarray}
\sum_{k=0} {}_n C_k \xi^k (1-\xi)^{n-k} &=& 1 \\
\sum_{k=0} k {}_n C_k \xi^k (1-\xi)^{n-k} &=& n \xi \\
\sum_{k=0} k^2 {}_n C_k \xi^k (1-\xi)^{n-k} &=& n(n-1)\xi^2 + n \xi
\end{eqnarray}
例2.11)の確率関数については
\begin{eqnarray}
\log p(k;\xi)
&=& - \xi + k \log \xi + 定数項
\end{eqnarray}
\begin{eqnarray}
\frac{\partial \log p(k;\xi)}{\partial \xi}
&=& -1 + \frac{k}{\xi}
\end{eqnarray}
このFisher情報量は機械学習や統計でも出てくる式です。
例えばCramer-Raoの定理というものがあります。
【Cramer-Raoの定理】
任意の不変推定量$\tilde{\beta}$に関する共変分散行列$V(\tilde{\beta})$は、Fisher情報行列$J$の$N$倍の逆行列を上回ることがない
\begin{eqnarray}
V(\tilde{\beta}) \geq (NJ)^{-1}
\end{eqnarray}
具体的な証明は「統計的機械学習の数理100問」の4.2節などをご参照ください。
不変推定量というのは真の値$\beta$が分からない時に、標本から測定した推定量です。例えば工場での検品したデータを標準正規分布に従うと仮定して、不良率を推測したりします。
真の値から外れた変動の度合いを測る尺度が分散ですが、その分散の上限値はFisher情報行列の逆行列より小さくなることがありません。
分散行列を正確に計算するのが難しい場合など、分散の上限を定めてくれるFisher情報行列は便利なものです。
Fisher情報量については以下の「へちやぼらけ・データサイエンティスト」さんの動画もご参照ください。
例2.11)では、Fisher情報量が$1/\xi$で、分散が$\xi$であり、実際に分散がFisher情報行列の逆行列になっています。
次にはFisher計量の2つの性質、単調性と不変性を示します。
これは定理2.2から示すことができます。
ある統計的モデル$\Omega$上のFisher計量と、マルコフはめ込みを満たす全射$\Omega \to \Omega'$の$\Omega'$上のFisher計量の差分$\Delta g_{ij}(\xi)$を考えます。
この証明では$\partial_i \log p = \partial_i \log p - \partial_i \log q + \partial_i \log q = \partial_i \log r + \partial_i \log q$の置き換えと、(1.102)式
\begin{eqnarray}
\sum_{y \in \Omega'} q(y:\xi) = \sum_{x \in \Omega} p(x:\xi)
\end{eqnarray}
を使用します。
(2.149)式が半正定値であることから、(2.144)式も半正定値になります。
(2.150)式より、FがSについての十分統計量ならば差分が0になる、すなわち写像に対して不変であることが示されます。
そして、これはチェンツォフの定理の十分条件でもあります。
Fisher計量が(2.96)式の式で与えられるならば、マルコフはめ込みに対する不変性が成立していることを定理2.2は示しています。
2.6節を読む
本節では(0,3)型テンソルのチェンツォフの定理を証明します。
まず定義2.4で(0,3)型テンソルを定めます。
そしてマルコフはめ込みの写像に対する不変性(2.156)式が成立するならば、(2.157)式が成立することを示します。
証明の手順は(0,2)型テンソルと同様です。
第一段階では、例2.6)について、$i,j,k$が全て同じ場合、2つだけ同じ場合、全て異なる場合についての不変性から、$\lambda_n, \mu_n, \nu_n$が$i,j,k$に依存しないことを示します。
第二段階では、例2.7)について、$i,j,k$が全て同じ場合、2つだけ同じ場合、全て異なる場合についての不変性を考えます。
全て異なる場合は(2.164)が求まります。
2つだけ同じ場合、基底の全組み合わせが$m^2$個、基底が同じ組み合わせが$m$個、基底が異なる組み合わせが$m^2-m$個で(2.165)式が求まります。
全て同じ場合、基底の全組み合わせが$m^3$個、基底が3つとも同じ組み合わせが$m$個、基底が2つだけ同じ組み合わせは3パターンあり、それぞれが$m^2-m$個、基底が異なる組み合わせが$m^3-3m^2+2m$個で(2.168)式が求まります。
第三段階と第四段階も同様です。
第五段階では、(2.180)式に$u_i=(1,0,0,-1)$、$v_i=(1,0,0,-1)$、$w_i=(1,0,0,-1)$、$\xi_i=(\xi,\eta,\zeta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*1*1}{\xi^2} + \frac{0*0*0}{\eta^2} + \frac{0*0*0}{\zeta^2} + \frac{(-1)*(-1)*(-1)}{ (1-\xi-\eta-\zeta)^2} \Biggl) \psi(\xi+\eta+\zeta+1-\xi-\eta-\zeta) \\
&=& \Biggl( \frac{1}{\xi^2} - \frac{1}{ (1-\xi-\eta-\zeta)^2} \Biggl) \psi(1)
\end{eqnarray}
から(2.182)式が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_3 T_4)_{(\xi,\eta, \zeta)}(e_1,e_1,e_1)
&=& (T_3)_{(\xi,\eta, \zeta)}(e_1,e_1,e_1)
\end{eqnarray}
(2.178)式に$u_i=(1,0,0)$、$v_i=(1,0,0)$、$w_i=(1,0,0)$、$\xi_i=(\xi,\eta,\zeta)$を代入して
\begin{eqnarray}
(T_3)_{(\xi,\eta, \zeta)}(e_1,e_1,e_1)
&=& \frac{(\xi+\eta+\zeta)^2}{\xi^2} \psi(\xi+\eta+\zeta) + \mu(\xi+\eta+\zeta)
+ \frac{3}{\xi}(\xi+\eta+\zeta) \varphi(\xi+\eta+\zeta) + \nu(\xi+\eta+\zeta)
\end{eqnarray}
が求まります。
この式は(2.182)式と等しいです。
同様に、(2.180)式に$u_i=(1,0,0,-1)$、$v_i=(1,0,0,-1)$、$w_i=(0,1,0,-1)$、$\xi_i=(\xi,\eta,\zeta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*1*0}{\xi^2} + \frac{0*0*1}{\eta^2} + \frac{0*0*0}{\zeta^2} + \frac{(-1)*(-1)*(-1)}{ (1-\xi-\eta-\zeta)^2} \Biggl) \psi(\xi+\eta+\zeta+1-\xi-\eta-\zeta) \\
&=& - \frac{1}{ (1-\xi-\eta-\zeta)^2} \psi(1)
\end{eqnarray}
から(2.183)式が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_3 T_4)_{(\xi,\eta, \zeta)}(e_1,e_1,e_2)
&=& (T_3)_{(\xi,\eta, \zeta)}(e_1,e_1,e_2)
\end{eqnarray}
(2.178)式に$u_i=(1,0,0)$、$v_i=(1,0,0)$、$w_i=(0,1,0)$、$\xi_i=(\xi,\eta,\zeta)$を代入して
\begin{eqnarray}
(T_3)_{(\xi,\eta, \zeta)}(e_1,e_1,e_2)
&=& \frac{1}{\xi}(\xi+\eta+\zeta) \varphi(\xi+\eta+\zeta) + \nu(\xi+\eta+\zeta)
\end{eqnarray}
が求まります。
この式は(2.183)式と等しいです。
更に、(2.180)式に$u_i=(1,0,0,-1)$、$v_i=(0,1,0,-1)$、$w_i=(0,0,1,-1)$、$\xi_i=(\xi,\eta,\zeta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*0*0}{\xi^2} + \frac{0*1*0}{\eta^2} + \frac{0*0*1}{\zeta^2} + \frac{(-1)*(-1)*(-1)}{ (1-\xi-\eta-\zeta)^2} \Biggl) \psi(\xi+\eta+\zeta+1-\xi-\eta-\zeta) \\
&=& - \frac{1}{ (1-\xi-\eta-\zeta)^2} \psi(1)
\end{eqnarray}
から(2.184)式が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_3 T_4)_{(\xi,\eta, \zeta)}(e_1,e_2,e_3)
&=& (T_3)_{(\xi,\eta, \zeta)}(e_1,e_2,e_3)
\end{eqnarray}
(2.178)式に$u_i=(1,0,0)$、$v_i=(0,1,0)$、$w_i=(0,0,1)$、$\xi_i=(\xi,\eta,\zeta)$を代入して
\begin{eqnarray}
(T_3)_{(\xi,\eta, \zeta)}(e_1,e_2,e_3)
&=& \nu(\xi+\eta+\zeta)
\end{eqnarray}
が求まります。
この式は(2.184)式と等しいです。
これらの式から(2.187)が求まり、チェンツォフの定理が得られます。
『第3章 α接続』について
本章では、統計的モデルの幾何学的性質を調べるために、接続の微分幾何学について解説しています。
本章には数式に誤植があったりするので、以下の正誤表で確認することをお勧めします。
3.1節を読む
曲線の接ベクトルを考えたとき、接ベクトルが曲線に沿って平行になるならば、この曲線を測地線と呼びます。
ここでは証明しませんが、測地的曲率ベクトルが0になるならば、曲線の接ベクトルの変化率は法線方向のみになります。
つまり接ベクトルの変化方向が常に一定であること、曲線に沿って平行であることが分かります。
3.1節ではまず正則な曲線$\gamma(t)$を定めます。
そしてリーマン計量$g$と接ベクトル$\gamma'(t)$を用いて曲線の長さ(3.1)式を定義します。
$\gamma:[a,b] \to D$、$L^{-1}:[L(a), L(b)] \to [a,b]$より、これらを合成したD内の曲線$\tilde{\gamma}= \gamma \circ L^{-1}:[L(a), L(b)] \to D$を考えます。
$\tilde{\gamma}'(s)$は(3.4)式を満たす単位接ベクトルです。
ここでも(3.3)式で合成関数の微分が出てきますが、以下のように式展開します。
\begin{eqnarray}
\frac{\partial \tilde{\gamma}(s)}{\partial s}
&=& \frac{\partial}{\partial s} ( \gamma(t) \circ L^{-1})
= \frac{\partial \gamma(t)}{\partial t} \Biggl|_{t=L^{-1}(s)} \frac{\partial L^{-1}}{\partial t}
= \gamma'(t) \frac{1}{L'(t)}
\end{eqnarray}
この$\tilde{\gamma}$も正則であり、長さが(3.5)式のような定数になります。
以降に考える曲線は全て$\tilde{\gamma}$のように写像されて、(3.6)式もしくは(3.7)式を満たすものとします。
次に測地線の方程式を導出する為に最短線を考えます。
点aから点bを結ぶ曲線を考え、その2点を結ぶ経路の変形する余地をパラメータ$s \in (\epsilon, -\epsilon)$で表します。
そして曲線$\gamma$が最短線ならば、(3.9)式を満たします。
(3.9)式を具体的に計算すれば、測地線の方程式(3.20)式が求まります。
つまり、ユークリッド空間の2点を結ぶ最短の曲線は、測地線でないといけません。
なお、ユークリッド空間上の曲線をリーマン多様体上の曲線に拡張した場合は、最短曲線という性質はないので、停留値を与える停留曲線を考えます。
停留曲線について、パラメータ$s$について変分を取った時に停留する条件を与えます。
曲線がこの条件を満たす停留曲線ならば、それは測地線でないといけません。
本書における合成関数を使った記法は私には馴染みのないものなので混乱しました。
$g_{ij} \circ \alpha$は$g_{ij}(p)$、
\begin{eqnarray}
\frac{\partial }{\partial s} (g_{ij} \circ \alpha)
= \sum_{k=1}^n \Biggl( \frac{\partial g_{ij} }{\partial x_k} \circ \alpha \Biggl) \frac{\partial \alpha_k}{\partial s}
\end{eqnarray}
については
\begin{eqnarray}
\frac{\partial }{\partial s} g_{ij}(p)
= \sum_{k=1}^n \frac{\partial g_{ij}(p) }{\partial \alpha_k} \frac{\partial \alpha_k}{\partial s}
\end{eqnarray}
という記法の方が分かりやすいのではと思いました。
具体的に(3.9)を計算をしてみます。
(3.12)式の分母のルートは定数$c$と簡潔に表記することにします。
以下の部分積分で(3.13)式を展開すれば、(3.16)式になります。($t$で微分するパラメータを$\alpha_i$から$\gamma_i$に書き換えます。)
\begin{eqnarray}
&& \int_a^b (g_{ij} \circ \alpha) \frac{\partial^2 \alpha_i}{\partial s \partial t} \frac{\partial \alpha_j}{\partial t} dt \\
&=& \Biggl[ (g_{ij} \circ \alpha) \frac{\partial \alpha_i}{\partial s} \frac{\partial \alpha_j}{\partial t} \Biggl]_a^b
- \int_a^b \frac{\partial}{\partial t} \Biggl( (g_{ij} \circ \alpha) \frac{\partial \alpha_j}{\partial t} \Biggl) \frac{\partial \alpha_i}{\partial s}dt \\
&=& (g_{ij} \circ \alpha) \frac{\partial \alpha_i(b,s)}{\partial s} \frac{\partial \alpha_j(b,s)}{\partial t}
- (g_{ij} \circ \alpha) \frac{\partial \alpha_i(a,s)}{\partial s} \frac{\partial \alpha_j(a,s)}{\partial t}
- \int_a^b \sum_{k=1}^n \Biggl( \frac{\partial g_{ij}}{\partial x_k} \circ \alpha \Biggl) \frac{\partial \alpha_k}{\partial t} \frac{\partial \alpha_i}{\partial s} \frac{\partial \alpha_j}{\partial t} dt
- \int_a^b (g_{ij} \circ \alpha ) \frac{\partial \alpha_i}{\partial s} \frac{\partial^2 \alpha_j}{\partial t^2} dt \\
&=& - \int_a^b \sum_{k=1}^n \Biggl( \frac{\partial g_{ij}}{\partial x_k} \circ \alpha \Biggl) \frac{\partial \alpha_k}{\partial t} \frac{\partial \alpha_i}{\partial s} \frac{\partial \alpha_j}{\partial t} dt
- \int_a^b (g_{ij} \circ \alpha ) \frac{\partial \alpha_i}{\partial s} \frac{\partial^2 \alpha_j}{\partial t^2} dt
\end{eqnarray}
(3.16)式の計算は簡単ですが、長いので整理すると、
(3.16)第1式の1項が、(3.16)第2式の4項になります。
(3.16)第1式の2項が、(3.16)第2式の2項になります。
(3.16)第1式の3項と5項が、(3.16)第2式の1項になります。
(3.16)第1式の4項が、(3.16)第2式の3項になります。
また、ここでは(3.8)式の$\alpha(t,0) = \gamma(t)$を用いています。
(3.9)式の条件より、(3.18)式は0にならないといけないので、測地線の方程式(3.20)式が求まります。
命題3.1について、(3.21)式の最後の式が添え字$i,j,k$の入れ替えに対して不変であることを利用して、打ち消しあうように添え字を書き換えれば0になります。
例3.1)はユークリッド空間において、測地線の方程式を満たす曲線が直線であることを示しています。
つまりユークリッド空間において2点間を結ぶ最短の曲線は、直線になるわけです。
例3.2)はポアンカレ上半平面の測地線の方程式を求めて、解きます。
\begin{eqnarray}
\Gamma_{11}^1
&=& \frac{1}{2} \sum_{i=1} g^{1i} \Biggl( \frac{\partial g_{i1}}{\partial x} + \frac{\partial g_{1i}}{\partial x} - \frac{\partial g_{11}}{\partial x_i} \Biggl) \\
&=& \frac{1}{2} g^{11} \Biggl( \frac{\partial g_{11}}{\partial x} + \frac{\partial g_{11}}{\partial x} - \frac{\partial g_{11}}{\partial x} \Biggl) \\
&=& 0
\end{eqnarray}
\begin{eqnarray}
\Gamma_{12}^1 = \Gamma_{21}^1
&=& \frac{1}{2} \sum_{i=1} g^{1i} \Biggl( \frac{\partial g_{i1}}{\partial y} + \frac{\partial g_{2i}}{\partial x} - \frac{\partial g_{12}}{\partial x_i} \Biggl) \\
&=& \frac{1}{2} g^{11} \Biggl( \frac{\partial g_{11}}{\partial y} + \frac{\partial g_{21}}{\partial x} \Biggl) \\
&=& \frac{1}{2} g^{11} \Biggl(\frac{\partial g_{11}}{\partial y} \Biggl) \\
&=& - \frac{1}{2} y^2 \frac{2}{y^3} \\
&=& - \frac{1}{y}
\end{eqnarray}
\begin{eqnarray}
\Gamma_{11}^2
&=& \frac{1}{2} \sum_{i=1} g^{2i} \Biggl( \frac{\partial g_{i1}}{\partial x} + \frac{\partial g_{1i}}{\partial x} - \frac{\partial g_{11}}{\partial x_i} \Biggl) \\
&=& \frac{1}{2} g^{22} \Biggl( \frac{\partial g_{11}}{\partial x} + \frac{\partial g_{21}}{\partial x} - \frac{\partial g_{11}}{\partial y} \Biggl) \\
&=& \frac{1}{2} g^{22} \Biggl(- \frac{\partial g_{11}}{\partial y} \Biggl) \\
&=& \frac{1}{2} y^2 \frac{2}{y^3} \\
&=& \frac{1}{y}
\end{eqnarray}
\begin{eqnarray}
\Gamma_{22}^2
&=& \frac{1}{2} \sum_{i=1} g^{2i} \Biggl( \frac{\partial g_{i2}}{\partial y} + \frac{\partial g_{2i}}{\partial y} - \frac{\partial g_{22}}{\partial x_i} \Biggl) \\
&=& \frac{1}{2} g^{22} \Biggl( \frac{\partial g_{22}}{\partial y} + \frac{\partial g_{22}}{\partial y} - \frac{\partial g_{22}}{\partial y} \Biggl) \\
&=& \frac{1}{2} g^{22} \Biggl(\frac{\partial g_{22}}{\partial y} \Biggl) \\
&=& - \frac{1}{2} y^2 \frac{2}{y^3} \\
&=& - \frac{1}{y}
\end{eqnarray}
他のクリストッフェルの記号も同様に計算できます。
余談ですが、曲線に出てくる繰り返しの計算は紙に手で書くと大変ですが、LaTeXならコピペして少しずつ変えていくだけなので簡単です。
私が大学院生として理論物理学の研究室にいた時、私の指導教授は複雑な計算を紙にではなく、LaTeX上で計算していました。
測地線の方程式にこれらを代入します。
\begin{eqnarray}
\frac{d^2x}{dt^2} + \Gamma_{12}^1 \frac{d x}{dt} \frac{d y}{dt} + \Gamma_{21}^1 \frac{d y}{dt} \frac{d x}{dt}
= x'' -\frac{2}{y} x' y' = 0
\end{eqnarray}
\begin{eqnarray}
\frac{d^2 y}{dt^2} + \Gamma_{11}^2 \frac{d x}{dt} \frac{d x}{dt} + \Gamma_{22}^2 \frac{d y}{dt} \frac{d y}{dt}
= y'' +\frac{1}{y} \{ (x')^2 + (y')^2 \} = 0
\end{eqnarray}
\begin{eqnarray}
\frac{d^2x}{dt^2} + \Gamma_{12}^1 \frac{d x}{dt} \frac{d y}{dt} + \Gamma_{21}^1 \frac{d y}{dt} \frac{d x}{dt}
= x'' -\frac{2}{y} x' y' = 0
\end{eqnarray}
\begin{eqnarray}
\frac{d^2 y}{dt^2} + \Gamma_{11}^2 \frac{d x}{dt} \frac{d x}{dt} + \Gamma_{22}^2 \frac{d y}{dt} \frac{d y}{dt}
= y'' +\frac{1}{y} \{ (x')^2 + (y')^2 \} = 0
\end{eqnarray}
$x' = Cy^2$とすれば測地線の方程式の第1式を満たします。
命題3.1より以下の条件が求まります。
\begin{eqnarray}
1 &=& g(\gamma', \gamma') \\
&=& \sum_{i,j=1}^2 g_{ij} \frac{dx_i}{dt} \frac{dx_j}{dt} \\
&=& \frac{(x')^2 + (y')^2}{y^2}
\end{eqnarray}
$x'=0$の場合と$x' \neq 0$の場合の計算をします。
$x'=0$の場合、$x$は定数$a$になります、
第2式は$y''-y=0$になるので$y = \exp(\pm t+b)$($b$は定数)になります。
$x' \neq0$の場合、$(x')^2 = -2(y')^2 + y^2$と$(y'/y)'=(y'' y-(y')^2)/y^2$を測地線の方程式の第2式に代入すれば(3.32)式を得ます。
(3.32)式と(3.34)式の計算は三角関数の公式を使うだけなので省略します。
以上より測地線がx軸上に中心を持つ円周の円弧になることが分かります。
3.2節を読む
この節では方向微分の全体がベクトル空間となることを示します。
そして方向微分を接ベクトルとみなし、方向微分の全体を接空間とみなすことができるようになります。
ベクトルを向きと大きさを持つ量として定義するのは不完全な定義で、正確なベクトルの定義は、座標変換に対して変換性$V_i = R^j_i V_j$を持つ量のことです。
スカラー、テンソルも座標変換に対する変換性で定義されます。
大きさや向きを持つイメージのない微分がベクトルとみなせるのは、この変換性を満たすからです。
本節の展開は以下のようになっています。
まず定義3.3で一般的なベクトル場を定義します。
そしてベクトル場の満たす性質を命題3.2に列挙しています。
次いで、方向微分を(3.39)式で定義します。
この方向微分がベクトルの性質を持つことを定理3.1で示し、これを接ベクトルとします。
接ベクトル全体からなる接空間も定めます。
ここでの計算は、(3.41)式の合成関数の微分が少し分かりにくいかもしれません。
$x_i$の関数である$f$の偏微分を取り、$\mathbf{p}$点の値を代入し、合成関数なので$f$の変数には$x_i=\gamma_i$が代入されるので、分母の$\partial x_i$に対して、分子に$\partial \gamma_i$が対応します。
次には方向微分でD上の$C^{\infty}$級ベクトル場を(3.45)式で定義し、これも定理3.2のベクトル空間の性質を満たすことを示します。
最後には交換子の定義とその性質を示します。
証明の計算は簡単なので説明は省略します。
3.3節を読む前に
3.3節でははめ込みである写像が単射である性質と次元定理を用いて、レビ-チビタ(Levi-Civita)接続を導出します。
これは私には馴染みの薄い導出方法で、理解が未だ十分ではありません。
本書での導出を見る前に、馴染みのある方法での導出をおさらいしておきたいと思います。
まず、ベクトル場と測地線の方程式は既に得られているとします。
測地線とは、曲線上に沿って平行移動するベクトル場が満たす方程式です。
詳細は省きますが、曲面の構造方程式から接続係数やベクトル場の共変微分を考え、アファイン接続を定義します。
アファイン接続を持つ多様体とは、平行移動の構造を持つ多様体です。
ここで、Riemann多様体MとM上の滑らかな曲線$C = { p(t) ; a \leq t \leq b }$があったとします。
M上の点$p(a)$における接ベクトル$\mathbf{v}, \mathbf{w} \in T_p M$を、アファイン接続によって$C$に沿ってM上の点$p(b)$まで平行移動したものを$\mathbf{v}', \mathbf{w}'$とします。
平行移動に対して内積が不変になるならば、つまり$g_{p(a)}(\mathbf{v}, \mathbf{w}) = g_{p(b)}(\mathbf{v}', \mathbf{w}')$を満たすならば、Riemann多様体Mのアファイン接続をレビ-チビタ(Levi-Civita)接続と呼びます。
以上が、よくあるレビ-チビタ(Levi-Civita)接続の導出です。
それに比べて、本書は他の本では見られない定義の仕方をしています。
本書では、はめ込みを満たすベクトル場の写像を考えます。その写像を接ベクトル成分とその直交成分に分けて、接ベクトル成分の項をレビ-チビタ(Levi-Civita)接続と定義します。
そして(3.76)式のように、レビ-チビタ(Levi-Civita)接続で写像したベクトルの内積が、元のベクトルの内積と同じになる不変性が導かれます。
これよりレビ-チビタ(Levi-Civita)接続の定義の前提になる内積の不変性が、はめ込みを満たす写像の不変性と等価であることが分かります。
3.3節を読む
本節では、レビ-チビタ(Levi-Civita)接続を定義します。
P43の図2.5では写像の微分を考えました。
ここでも写像$\iota : D \to \mathbf{R}^n$の点$\mathbf{p}$における微分を考えます。
$X$は接ベクトル$T_{\mathbf{p}} D$の元で、図2.5の$\gamma'$のことです。
$\iota$は図2.5の$f$にあたり、$\iota_* X$が図2.5の$(f \circ \gamma)'$になります。
よって(2.39)式の記号を上記の通りに置き換えれば(3.61)を得ます。
(3.46)で考えたベクトル場$Y$による関数$\iota_* X$の微分を考えます。
(3.41)の$f$に$\iota_* X$の成分を代入し、$\gamma'$に$Y$の成分を代入すれば、(3.63)が求まります。
命題2.3がそのまま適用できて、線形写像
\begin{eqnarray}
(d \iota)_{\mathbf{p}} : T_{\mathbf{p}} D \to T_{\iota(\mathbf{p})} \mathbf{R}^n
\end{eqnarray}
が単射ならば$\mathrm{Ker} (d \iota)_{\mathbf{p}}=0$になります。
ここで以下の次元定理を使用します。
命題2.2より$\dim T_{\mathbf{p}} D = \dim \mathbf{R}^m = m$です。
これらを次元定理
\begin{eqnarray}
\dim T_{\mathbf{p}} D = \dim \mathrm{Im} (d \iota)_{\mathbf{p}} + \dim \mathrm{Ker} (d \iota)_{\mathbf{p}}
\end{eqnarray}
に代入すれば(3.64)が求まります。
これにより$T_{\mathbf{p}} D$の元を$\mathrm{Im} (d \iota)_{\mathbf{p}}$の元とみなせます。
以上より任意のベクトル$\boldsymbol{x} \in \mathbf{R}^n$は、接ベクトル空間に等しい$\mathrm{Im} (d \iota)_{\mathbf{p}}$と、それに直行する直行補空間との直和空間に分解できることが分かりました。
(3.67)に出てくる第2基本形式については、以下の記事で簡単に説明しているのでご参照ください。
第1基本形式は、曲面の接ベクトルによる接平面に由来する量です。
第2基本形式は、3次元空間の法線ベクトルに由来する量です。
接ベクトルが$\mathbf{R}^n$の部分空間$\mathrm{Im} (d \iota)_{\mathbf{p}}$を考えると、それに直行する直行補空間は法線ベクトル方向の空間なので第2基本形式を定めます。
ベクトル場$Y$による関数$\iota_* X$の微分が作る空間$\mathbf{R}^n$は(3.66)式の形式に直行和分解できるので、$\boldsymbol{x}_1$を(3.67)の第1式と定義し、$\boldsymbol{x}_2$を(3.67)の第2式と定義します。
リーマン幾何学は曲面の内的な量だけを用いるので、曲面の外である3次元空間の法線ベクトルに由来する$A$は排除したい量です。
本書では定理3.6の第2式を定めることで、定理3.5において第2基本形式が相殺されてなくなり、第2基本形式を曲面の性質とは無関係にしています。
本節の残りの計算は以下の不明点があり、まだ私は分かっていません。とりあえずは、結果を頭ごなしに正しいとみなして読み進めたいと思います。
不明点1(解決済み):定理3.4の(4)
レビ-チビタ(Levi-Civita)接続が満たす性質は定理3.4です。
(1)から(3)の計算は簡単です。
少しだけ気になったことは第2基本形式$A$の項を、特に説明なく共変微分と分けていることでした。
つまり$\nabla_{Y+Z} X + A(X,Y+Z) = \nabla_{Y} X + A(X,Y) + \nabla_{Z} X + A(X,Z)$に対して、本書では$\nabla_{Y+Z} X = \nabla_{Y} X + \nabla_{Z} X$と$A(X,Y+Z) = A(X,Y) + A(X,Z)$としています。
ですが、もし$\nabla_{Y+Z} X = \nabla_{Y} X + \nabla_{Z} X + A(X,Y)$と$A(X,Y+Z) = A(X,Z)$に分けたとしても等号は成立します。
おそらくは$(3.66)$により任意のベクトルは接ベクトルと法線ベクトルに分離できるとしたので、共変微分$\nabla$の項と第2基本形式$A$の項は分離すべきということなのだと理解しています。
(4)については、(3.75)式において$X = \iota_* X$になる理由が分かりませんでした。もしも
\begin{eqnarray}
\frac{\partial \iota_j}{\partial x_i} = \delta_{ij}
\end{eqnarray}
にできるのならば等しくなりますが、そうしていい理由が思いつきません。
(追記)
おそらく$X = \iota_* X$になる理由は、単射だからだと思います。
単射ならば$X$の元と$\iota_* X$の元は必ず1対1対応させられます。全ての元が同一ならば、それは同じとみなせます。
先の式で説明するのならば、どれか1つの元が一致するので、必ず $\partial \iota_j / \partial x_i = \delta_{ij}$ になります。
不明点2(解決済み):標準内積の定義と(3.78)
この節での標準内積の定義が私にはよく理解できませんでした。
実際に内積を計算しながら、私の不明点を説明します。
ベクトル場を
\begin{eqnarray}
X &=& \sum_{k=1}^m \xi^k \mathbf{e}^k \\
Y &=& \sum_{k=1}^m \eta^k \mathbf{e}^k
\end{eqnarray}
として、ベクトル場について$\iota$の微分を
\begin{eqnarray}
\iota_* X &=& \sum_{k=1}^m \sum_{i=1}^n \xi^k \frac{\partial \iota_i}{\partial x_k} \mathbf{e}^i \\
\iota_* Y &=& \sum_{k=1}^m \sum_{i=1}^n \eta^k \frac{\partial \iota_i}{\partial x_k} \mathbf{e}^i
\end{eqnarray}
とします。
$X$と$Y$の内積は、(2.34)のように計算すると
\begin{eqnarray}
g(X,Y) = \sum_{k,l=1}^m \xi^k \eta^l g(\mathbf{e}^k, \mathbf{e}^l) = \sum_{k,l=1}^m \xi^k \eta^l g_{kl}
\end{eqnarray}
になります。次に(2.40)と同様のヤコビアン
\begin{eqnarray}
J_{\iota(\cdot)}
&=&
\frac{\partial \iota_i}{\partial x_k}
\end{eqnarray}
を用いて、(2.57)のように、$\iota$による$g$の誘導計量を計算すると、ユークリッド計量$g_{ij}=\delta_{ij}$を用いて
\begin{eqnarray}
\iota_* g(X,Y) &=& g_{\iota(\cdot)} (X J_{\iota(\cdot)}, Y J_{\iota(\cdot)} ) \\
&=&
g_{\iota(\cdot)} \Biggl(\sum_{k=1}^m \sum_{i=1}^n \xi^k \frac{\partial \iota_i}{\partial x_k} \mathbf{e}^i, \sum_{l=1}^m \sum_{j=1}^n \eta^l \frac{\partial \iota_j}{\partial x_l} \mathbf{e}^j \Biggl) \\
&=&
(\iota_* X)_i (\iota_* Y)_j \ g_{ij} = \langle \iota_* X, \iota_* Y \rangle
\end{eqnarray}
となります。
つまり(3.76)は$g(X,Y)$ではなく、$\iota_* g(X,Y)$ではないかと私は疑問に思いました。
続く(3.78)式の計算も、標準内積の計算が分かりませんでした。
まず、(3.78)の途中計算では、接ベクトルと$A$が直交するので、その内積$\langle A, \iota_* Z \rangle$が0になることを利用します。
最後の式展開で、(3.78)式において$\langle \nabla_X Y, \iota_* Z \rangle = g(\nabla_X Y,Z)$になる理由が分かりませんでした。
(3.76)式に当てはめるために、$\langle \nabla_X Y, \iota_* Z \rangle = \langle \iota * (\nabla_X Y), \iota_* Z \rangle$とみなしていいのか疑問に思いました。
(追記)
まず、内積の定義は、$X = \iota_* X$になることを利用します。
\begin{eqnarray}
g(X,Y) &=& \langle X, Y \rangle
\end{eqnarray}
が本来の内積の定義です。ですが、$X = \iota_* X$、$Y = \iota_* Y$なので
\begin{eqnarray}
g(X,Y) &=& \langle \iota_* X, \iota_* Y \rangle
\end{eqnarray}
が成立します。
(3.78)式の最後の式展開は、本来の内積の定義に立ち返り、
\begin{eqnarray}
\langle \nabla_X Y , \iota_* Z \rangle + \langle \iota_* Y , \nabla_X Z \rangle
&=& \langle \nabla_X Y , Z \rangle + \langle Y , \nabla_X Z \rangle
= g(\nabla_X Y , Z) + g(Y , \nabla_X Z)
\end{eqnarray}
となります
不明点3(解決済み):(3.81)
(3.61)式と(3.62)式が(3.79)式と(3.80)式になるのは、おそらく単位ベクトル$ \mathbf{e}^i$を方向微分で表しているのでしょう。
\begin{eqnarray}
\iota_* X
&=& \Biggl( \sum_{i=1}^m \xi_i \frac{\partial \iota_1}{\partial x_i} , \cdots, \sum_{i=1}^m \xi_i \frac{\partial \iota_n}{\partial x_i} \Biggl) \\
&=& \sum_{k=1}^n \sum_{i=1}^m \xi_i \frac{\partial \iota_k}{\partial x_i} \mathbf{e}^k
= \sum_{k=1}^n \sum_{i=1}^m \xi_i \frac{\partial \iota_k}{\partial x_i} \Biggl( \frac{\partial } {\partial y_k} \Biggl)_{\iota(\cdot)}
\end{eqnarray}
これを用いて、(3.52)を(3.61)の$X$と置き換えれば(3.81)が計算できます。
ですが、(3.81)式において$[X,Y] = \iota_* [X,Y]$になる理由が分かりませんでした。
(追記)
$X = \iota_* X$、$Y = \iota_* Y$なので、$[X,Y] = \iota_* [X,Y]$になるのは自明となります。
不明点4(解決済み):(3.87)
(3.79)に(3.84)を代入すれば(3.85)になります。
これを更に微分すれば、(3.85)の第1項は0になり、第2項の分子と分母に対する微分が2つの項に分かれます。
(3.86)の最終式を計算するのは簡単ですが、その解釈が私には分かりませんでした。
(3.86)を(3.66)のように共変微分$\nabla$の項と第2基本形式$A$の項に分離するとありましたが、共変微分$\nabla$の項が(3.87)になる理由が分かりませんでした。
(追記)
第1項を成分表示すれば $(x_1, x_2, \cdots , x_n, -| \mathbf{x} |^2 / \sqrt{1 - | \mathbf{x} |^2})$になり、第2項を成分表示すれば$(-x_1, -x_2, \cdots , -x_n, -\sqrt{1 - | \mathbf{x} |^2})$になります。
この2つの内積を取れば0になるので、この2つは直交します。
第1項は(3.85)式と同じなので接ベクトル成分なので、第2項目が$A$の項に相当します。
本節の残りの部分、定理3.7と定理3.8は簡単な計算なので特に疑問はありませんでした。
3.4節を読む
レビチビタ接続を一般化して共変微分とアファイン接続を定義し、捩率テンソル場も定義しています。
捩率テンソル場の性質、共変微分が捩じれを持たない条件の話が続きます。
次に双対空間が定義されます。
命題3.4では、ベクトル空間から双対空間への写像が線形同型写像であることを示します。
まず、内積の線形性より
\begin{eqnarray}
\iota (a \mathbf{v} + b \mathbf{v}')
&=& a \langle \mathbf{v}, \cdot \rangle + b \langle \mathbf{v}', \cdot \rangle
= a \iota (\mathbf{v}) + b \iota (\mathbf{v}')
\end{eqnarray}
となるので、$\iota$は線形写像です。
$\mathrm{Ker} \iota: V^* \to V$なので$\mathbf{v} \in \mathrm{Ker} \iota$として
\begin{eqnarray}
\mathrm{Ker} \iota
= (\iota^{-1}(\mathbf{v}))(0)
= \{ \mathbf{v} \in V | (\iota(\mathbf{v}))(\mathbf{v}) = 0 \}
\end{eqnarray}
なので(3.108)式のようになります。命題2.3より$\iota$は単射だと分かります。
(3.109)式と次元定理より$\iota$は全射だと分かります。
よつて$\iota$は全単射線形写像なので線形同型写像です。
次に定理3.4を満たす別のアファイン接続(3.111)が定義されます。
このアファイン接続が定義3.4を満たすことが簡単な計算で示されます。
次には$\alpha$接続を定義します。
まず、1.2節で考えた定義1.3のような、高々可算(有限集合かつ可算集合)な部分集合上の統計的モデル(3.120)を考えます。
2.5節では、統計的モデルのリーマン計量として、フィッシャー計量を考えました。このフィッシャー計量のレビチビタ接続を$\nabla$とします。
また(0,3)型テンソル(3.121)式を定めます。(0,3)型テンソルは、マルコフはめ込みに対して不変、つまり2つの同等な統計的モデル間の写像に対して不変であることを2.6節で示しています。
これらを用いて$\alpha$接続(3.123)式を定義します。
マルコフはめ込みに対して不変なリーマン計量(フィッシャー計量)と、マルコフはめ込みに対して不変な(0,3)型テンソルを用いて定義し直した統計的モデル空間のアファイン接続は$\alpha$接続と呼ばれます。
この$\alpha$接続も捩じれを持たないことを本節の最後で示しています。
まずフィッシャーの情報行列(2.124)式を確率関数の期待値として(3.124)式のように表現します。
次に$\alpha$接続に対するクリストッフェルの記号(3.125)式をこのフィッシャーの情報行列で表現します。
(3.124)式の微分は、対数の微分の公式
\begin{eqnarray}
(\log p)' = \frac{p'}{p}
\end{eqnarray}
を用いれば
\begin{eqnarray}
\partial_k r_{ij} &=& \partial_k \{ \sum_{k=0}^n (\partial_i \log p) (\partial_j \log p) p \} \\
&=& \sum_{k=0}^n (\partial_k \partial_i \log p) (\partial_j \log p) p
+ \sum_{k=0}^n (\partial_i \log p) (\partial_k \partial_j \log p) p
+ \sum_{k=0}^n (\partial_i \log p) (\partial_j \log p) \partial_k p \\
&=& \sum_{k=0}^n (\partial_k \partial_i \log p) (\partial_j \log p) p
+ \sum_{k=0}^n (\partial_i \log p) (\partial_k \partial_j \log p) p
+ \sum_{k=0}^n (\partial_i \log p) (\partial_j \log p) p \partial_k \log p
\end{eqnarray}
より、(3.126)式が求まります。
これを(3.125)式に代入すれば、クリストッフェルの記号を期待値を用いて(3.128)式のように表現できます。
(3.123)式の右辺第1項は(3.128)式、第2項は(3.121)式なので、$\alpha$接続に対するクリストッフェルの記号(3.129)式が求まります。
これは(3.130)式を満たすので、$\alpha$接続は捩じれを持たないことが示されました。
3.5節を読む
本節の計算も簡単なものしかありません。
$\alpha$接続の$\alpha = 0$の場合がレビチビタ接続になることは前節で示しましたが、本節では$\alpha = 1$の場合のe-接続と$\alpha = -1$の場合のm-接続を考えます。
本節は それらの接続を論じる前の準備として、曲率を定義し、その性質である「定理3.12」を証明し、具体的に曲率を(3.136)式で計算して、平坦とは何かを定義します。
e-接続とm-接続が平坦であることを示すので、その前に平坦とはそもそも何かを定義したいわけです。
(3.140)式の確率に従う統計的モデル$S$を指数型分布族と呼びます。この確率$p$の$\log p$を計算して、先ほどの$\alpha$接続のクリストッフェルの記号に代入すれば(3.156)式が求まります。
ここで$\alpha = 1$とすれば、曲率が0で、平坦なe-接続となります。
一連の計算は簡単ですが、(3.142)式がほんの少しだけ難しいかもしれません。
(3.141)式は1なので、その対数を取ると0になります。よって、以下の式展開で(3.142)式が求まります。
\begin{eqnarray}
\log \sum_x p = \log \sum_x \exp (C + \sum_i \theta_i F_i) - \log e^{\psi}
= \log \sum_x \exp (C + \sum_i \theta_i F_i) - \psi = 0
\end{eqnarray}
また、(3.148)式が(3.150)式になるのは、以下の計算を使います。
\begin{eqnarray}
e^{\theta_j} = \frac{\xi_j}{1- \sum_{k=1}^n \xi_k}
\end{eqnarray}
\begin{eqnarray}
\sum_{j=1}^n e^{\theta_j}
= \frac{\sum_{j=1}^n \xi_j}{1- \sum_{k=1}^n \xi_k}
\end{eqnarray}
\begin{eqnarray}
1 + \sum_{j=1}^n e^{\theta_j}
= \frac{1- \sum_{k=1}^n \xi_k + \sum_{j=1}^n \xi_j}{1- \sum_{k=1}^n \xi_k} = \frac{1}{1- \sum_{k=1}^n \xi_k}
\end{eqnarray}
\begin{eqnarray}
\log ( 1 + \sum_{j=1}^n e^{\theta_j} )
= \log \frac{1}{1- \sum_{k=1}^n \xi_k} = - \log (1- \sum_{k=1}^n \xi_k)
\end{eqnarray}
(3.159)式の確率に従う統計的モデル$S$を混合型分布族と呼びます。以降の話は指数型分布族と同じです。
『第4章 確率密度関数からなる統計的モデル』について
3章までの内容は本書以外に類書が少なく、説明が分からないと他に調べようがなくて頭を抱えてしまいましたが、本章以降のルベーグ積分、多様体は類書が無数にあるので、本書で不明点があれば それらの本を読んで調べることができます。
よってこれ以降は、本書に不明な点があれば、理解不足な私の本記事を参照するよりは、それらの本を読んだ方がいいと思います。
ここから先は、私が自分の為だけに書くメモに過ぎないとお考えください。
本章では有限な高々可算な部分集合上の統計的モデルを、無限な統計的モデルに拡張します。
無限での確率を扱うには測度論が必要になります。
そのため、本章では測度空間や可測関数について学習します。
本章を読むにあたっては、KS理工学選書の「測度・確率・ルベーグ積分 応用への最短コース」を参照しています。
4.1節を読む
確率はある性質を満たす3つの集合 $(\Omega, \mathscr{F}, \mu)$ の確率空間とみなせます。
本節は、そのある性質とは何かについて説明しています。
今まで見てきたように、確率を空間とみなすことで、本物の時空を扱う距離(計量)や曲率の手法を学習理論に応用できます。
前章までは離散型確率空間のサンプルの集合である標本空間だけを対象にしていましたが、本章からはこれをより一般的な可測空間に拡張します。
この一般化により、確率空間の多様体、統計多様体を考えることができるようになります。
可測空間
空でない集合$\Omega$であるとします。
次に、定義4.1 を満たす$\sigma$-加法族$\mathscr{F}$があるとします。
つまり、$\mathscr{F}$は$\Omega$の部分集合であり、その要素$A$は空ではなく、$A$の補集合や和集合も$\mathscr{F}$の要素になります。
また、この$(\Omega, \mathscr{F})$を可測空間、$\mathscr{F}$の要素を可測集合と呼びます。
和集合も要素になるためには、集合が可算無限個でないといけません。要素が自然数Nと必ず1対1対応する集合については、その要素の和も必ずいずれかの自然数Nと1対1対応するので、和集合も同じ集合に属すると言えます。ですが、非可算集合では要素の和が同じ集合に属するとは保証できません。
例えば可算無限集合である整数全体、$\{1,2,3, \cdots \}$については、$1+2=3$の和集合が同じ集合に属しますが、非可算無限集合である実数全体、$\{0.1,0.01,0.01, \cdots \}$については、$0.1+0.01=0.11$の和集合は同じ集合には属さないわけです。
また、ある集合 $\Omega$に対して、$\mathscr{F}$が同じ集合$\Omega$を用いて定義される部分集合である場合、部分$\sigma$-加法族と呼びます。
本書の例4.1と例4.2がその代表例です。
空でない集合$\Omega$に対して、$\{ \emptyset,\Omega \}$は自明な$\sigma$-加法族です。
また、$2^{\Omega}$も部分$\sigma$-加法族になります。
測度空間
次に 確率空間の$\mu$が満たすべき条件を考えます。
可測空間$(\Omega, \mathscr{F})$が与えられたとき、$\mathscr{F}$上の関数$\mu:\mathscr{F} \to R
\cup \{ + \infty \}$が定義4.2の非負性と加法性を満たすならば、$\mu$を$(\Omega, \mathscr{F})$上の測度と呼びます。
測度は以下の性質を持ちます
確率空間
測度空間$(\Omega, \mathscr{F}, \mu)$に対して$\mu(\Omega) = 1$を満たすのならば、この測度空間のことを確率空間と呼びます。
そして測度$\mu$を確率測度と呼びます。また、確率空間の$\Omega$は標本空間とも呼びます。
$\mu(\Omega) < \infty$を満たすものを有限測度と呼ぶので、確率測度は有限測度でもあります。
イメージとしては$\mathscr{F}$は確率的に発生する事象です。例えばサイコロで言えば、1の目、2の目などのことです。
$\Omega$は$\mathscr{F}$を部分集合として持つ事象の全体、サイコロで言えば1の目から6の目までのことです。
$\mu$はそれらの事象が起きる確率のことで、サイコロで言えば$\mu(A_i)=1/6, A_i \in \mathscr{F}, (i = 1,\cdots , 6)$で、$\mu(\Omega)=1$になります。
生成されたσ-加法族
ある空でない集合が与えられたとき、その部分集合系が必ず$\sigma$-加法族になるとは限りませんが、(4.1)式を満たす部分集合系は、命題4.1より$\sigma$-加法族になります。
空ではない集合$\Omega$とその部分集合系$\mathscr{G}$があるとします。
部分集合系$\mathscr{G}$を含む$\sigma$-加法族を$\sigma [\mathscr{G}]$と書き、これを$\mathscr{G}$によって生成された$\sigma$-加法族と呼びます。
[証明]
(1) $\mathscr{G}$を含む$\sigma$-加法族が必ず存在することの証明
$\Omega$上の$\sigma$-加法族全体から成る集合を$\Delta$とします。
$\mathscr{G} \subset 2^{\Omega}$であり、$2^{\Omega}$は$\sigma$-加法族なので、$2^{\Omega} \in \Delta$となります。
よって$\mathscr{G}$を含む$\sigma$-加法族が必ず存在します
(2) $\sigma [\mathscr{G}]$が$\Omega$上の$\sigma$-加法族であることの証明
生成された$\sigma$-加法族は、$\sigma$-加法族$\mathscr{F} \in \Delta$の全ての共通部分であるとします。
\begin{eqnarray}
\sum [\mathscr{G}]
&=& \bigcap_{\mathscr{F} \in \Delta} \mathscr{F}
\end{eqnarray}
$\Omega \in \mathscr{F}$なので$\Omega \in \sigma [\mathscr{G}]$を満たします。
任意の$A \in \sigma [\mathscr{G}]$に対して$A \in \mathscr{F}$を満たします。
$\mathscr{F}$は$\sigma$-加法族なので$A^c \in \mathscr{F}$を満たすので、$A^c \in \sigma [\mathscr{G}]$も満たします。
任意の$A_i \in \sum [\mathscr{G}]$に対して$A_i \in \mathscr{F}$を満たします。
$\mathscr{F}$は$\sigma$-加法族なので$\cup_{i=1}^{\infty} A_i \in \mathscr{F}$を満たすので、$\cup_{i=1}^{\infty} A_i \in \sigma [\mathscr{G}]$も満たします。
ボレル集合族上のルベーグ測度
$\mathbf{R}^n$の開集合全体から成る集合によって生成された$\sigma$-加法族をボレル集合族$\mathscr{B}(\mathbf{R}^n) = \sigma [\mathbf{R}^n]$と呼びます。
$(\mathbf{R}^n, \mathscr{B}(\mathbf{R}^n))$は可測空間になります。
この定義ですと開集合だけしか扱えないように見えますが、以下のように閉区間を開区間で表すことで、閉区間もボレル集合とみなせます。
\begin{eqnarray}
[a,b] &=& \bigcap_{n=1}^{\infty} \Biggl( a - \frac{1}{n}, b + \frac{1}{n} \Biggl)
\end{eqnarray}
可測空間$(\mathbf{R}, \mathscr{B}(\mathbf{R}))$上では、以下を満たす一意的な測度が存在します。
\begin{eqnarray}
\lambda((a,b]) = b - a, a < b \in \mathbf{R}
\end{eqnarray}
0集合の部分集合を$\sigma$-加法族に追加し、測度空間の完備化を行ったものをルベーグ測度空間、完備化した測度をルベーグ測度と呼びます。
本節では以下の手順で$\mathbf{R}$のルベーグ測度を定めています。
- (4.2)式から(4.9)式にかけて、$\mathbf{R}$のルベーグ外測度を定義します。これは$\sigma$-加法的ではないので、測度とは言えません。
- この外測度が定理4.1の性質を持っていることを確認します。
- 定義4.3により、カラテオドリ条件を満たすルベーグ可測$A$を定義します。
- ルベーグ可測$A$を(4.12)式で制限した$\lambda$が$\sigma$-加法的であることを示します。そして、これが$\mathbf{R}$のルベーグ測度になります。
先ほどのボレル集合族のルベーグ測度を完備化したものは、このルベーグ測度と一致します。
ちなみに、ボレル集合族の測度空間は可測ではないので完備ではありません。部分集合を追加することで、測度空間を完備化にすることができます。
詳細は「測度・確率・ルベーグ積分」の1章をご参照ください。
ルベーグ外測度が満たす性質
ルベーグ外測度が満たす性質の定理4.1は以下のように証明できます。
(1)の非負性は$m(J)$の非負性より自明です。
(2)の単調性は以下のように示せます。
$A \subset B$ならば$B = (B \setminus A) \sqcup A$より
\begin{eqnarray}
\lambda^*(B) = \lambda^*(B \setminus A) + \lambda^*(A)
\end{eqnarray}
であり、非負性より$\lambda^* (B \setminus A) \leq 0$なので$\lambda^* (B) \leq \lambda^* (A)$を満たします
(3)の劣加法性は以下のように示せます。
$A_1,A_2,\cdots \in \mathbf{R}$に対して$B_1,B_2,\cdots \in \mathbf{R}$を以下のように定義します。
\begin{eqnarray}
B_1 &=& A_1 \\
B_n &=& A_n \setminus \bigcup_{i=1}^{n-1} A_i (n = 2,3,\cdots)
\end{eqnarray}
$\{ B_i \}$は非交差的なので$\cup_{i=1}^{\infty} A_i = \sqcup_{i=1}^{\infty} B_i$となります。
\begin{eqnarray}
\lambda^* \Biggl( \bigcup_{i=1}^{\infty} A_i \Biggl)
= \lambda^* \Biggl( \bigsqcup_{i=1}^{\infty} B_i \Biggl) = \sum_{i=1}^{\infty} \lambda^*(B_i)
\end{eqnarray}
$B_i \subset A_i$なので単調性より
\begin{eqnarray}
\sum_{i=1}^{\infty} \lambda^*(B_i) \leq \sum_{i=1}^{\infty} \lambda^*(A_i)
\end{eqnarray}
なので
\begin{eqnarray}
\lambda^* \Biggl( \bigcup_{i=1}^{\infty} A_i \Biggl) \leq \sum_{i=1}^{\infty} \lambda^*(A_i)
\end{eqnarray}
を満たします。
4.2節を読む
本節では、ルベーグ測度に関して可積分な可測関数について説明を行います。
それらの概要が紹介されるだけなので、ルベーグ積分を初めて勉強する人は、本節については他の本を参照した方がいいかもしれません。
確率変数
確率変数とは確率空間上に定義された可測関数です。
可測関数は定義4.4で定義されています。
可測空間$(\Omega, \mathscr{F})$からボレル集合族の可測空間$(\mathbf{R}, \mathscr{B}(\mathbf{R}))$への写像$f$が(4.13)を満たすならば、$f$を可測関数とみなします。
期待値
期待値とは確率変数のルベーグ積分です。
ルベーグ積分を行うためには、可測関数を単関数で近似してから、極限を取ります。
単関数
単関数は有限個の値のみを取る可測関数です。
具体的には例4.6の定義関数の有限和になります。
定義関数
定義4.4の(4.13)式の$f$を$\chi_A$に置き換えた式が成立すれば$\chi_A$は$\mathscr{G}$-可測関数であると証明できます。
例1.6の無限開区間の定義より
\begin{eqnarray}
(a, + \infty) = \{ x \in \mathbf{R} | a < x \}
\end{eqnarray}
$\chi_A$は0か1の値なので、$a \geq 1$の場合、$\chi_A$が$(a, \infty)$の範囲に写像できる値はないので、$\chi_A^{-1} = \emptyset$になります。
$0 \leq a < 1$の場合、$\chi_A$が$(a, \infty)$の範囲に写像できる値は1のみなので、$\chi_A^{-1} = A$になります。
$a \leq 0$の場合、$\chi_A$が$(a, \infty)$の範囲に写像できる値は0と1なので、$\chi_A^{-1} = A \cup \Omega \setminus A = \Omega$になります。
前提より$A \in \mathscr{F}$であり、例4.1)より自明な$\sigma$-加法族は$\{ \emptyset,\Omega \} \in \mathscr{F}$なので、全ての場合において$\chi_A^{-1} \in \mathscr{F}$が成立します。よって$\chi_A$は$\mathscr{F}$-可測関数になります。
単関数
単関数は例4.7で定義されます。
単関数は可測集合とその補集合の和集合で書けるので可測関数です。
非負可測関数は単関数で近似できることが定理4.3で示されます。
続いて定理4.3の(4.25)式について、本節は説明が少し不足していると思いました。
積分を初めて習った時、縦方向の細かい短冊に分割して、短冊の面積の和を求めるのが積分の原理だと教わったと思います。
ですが、今回は、横方向の細かい短冊に分割します。
縦軸の値域を0以上n未満とn以上無限未満に分けます。そしてn未満の値域を$n2^n$個の横方向の短冊に分割します。1つの短冊の高さは$1/2^n$です。
(4.25)式の第1項は この横方向に分割した短冊の和であり、第2項はn以上無限未満の領域を意味します。
(4.25)式は可測関数である単関数の線形結合なので可測関数です。また、非負な単調増加関数の和なので、短冊を細かくするほど近似精度がよくなり$f$に近づきます。$f_n<f$なので$f$に近づくほど値が大きくなるので、$f_{n+1}$が必ず$f_n$より大きくなります。
$n \to \infty$ならば(4.25)式の1項目の単関数は0になり、2項目の単関数は1になるので$f_n = n$となり、(4.26)式になります。
次に$f(x)<n$ならば、(4.25)式の第1項のみが残り、2項目の単関数は0になります。よって$f$が横方向の短冊の高さより$f_n$を上回ることはないので、$f - f_n < 1/2^n$となります。
これより(4.27)式が求まります。
この後は、定義と定理が続くだけなので、読んで覚えるだけでいいと思います。
4.3節を読む
条件付き期待値はラドン-ニコディムの定理と同等です。
条件付き期待値というのは、確率の事象全体の部分集合だけに限定した$\mu$-積分です。
事象の範囲を絞っていることが、条件を与えた確率でるとみなせます。
要するに(4.40)式の$A$上$\mu$-積分が、$\Omega$の部分空間$A$だけを考えた、条件付き期待値とみなせます。
ラドン-ニコディムの定理は、このような条件付き期待値を一意的に定める関数$f$が存在することを示しています。
また、(4.51)式のように$\mathbf{R}$上の統計的モデルを考えれば、部分空間ではなく確率空間全体を考えているので、ただの期待値が求まります。
例4.9)のように確率空間での積分が1になるような正規分布となるわけです。
定理4.7は、$\mathbf{R}$上$\mu$-積分が確率空間全体についての期待値であることを示しています。
これより$\mathbf{P}$-可積分での期待値や分散も(4.67)式や(4.68)式のように、離散型確率空間の時と同様に考えることができるようになります。
(4.69)式と(4.70)式は以下の公式を使用すれば、簡単に求まります。
\begin{eqnarray}
\int x e^{-x^2/2 \sigma^2} dx
&=& \int e^{-t/2 \sigma^2} dt
= [ -\sigma^2 e^{-t/2 \sigma^2} ]_{-\infty}^{\infty} = 0
\end{eqnarray}
上式では、$x^2 = t$として$dt = 2x dx$の置き換えをしました。
\begin{eqnarray}
\int x^2 e^{-x^2/2 \sigma^2} dx
&=& \int x ( -\sigma^2 e^{-x^2/2 \sigma^2} )' dx
= [-\sigma^2 e^{-x^2/2 \sigma^2}]_{-\infty}^{\infty} + \sigma^2 \int e^{-x^2/2 \sigma^2} dx
= \sigma^2 \sqrt{2 \pi}
\end{eqnarray}
4.4節を読む
『第5章 統計多様体』について
5.1節から5.3節は多様体の説明なので省略します。
本書の数学書のような説明が苦手で、物理の方が馴染み深い方でしたら、理論物理学のための幾何学とトポロジーの多様体の章の方が分かりやすいかもしれません。
本書での多様体の定義や説明が何をしているのか理解できない場合は、ブルーバックスの「多様体とは何か」のPart1を読んでから本書を読むと理解しやすいと思います。
備考
- 0回目 1.1節から1.2節まで
- 1回目 1.3節から2.1節P37まで(仕事のため欠席)
- 2回目 2.1節P37から2.3節P50まで
- 3回目 2.3節P50から2.4節まで
- 4回目 2.5節から2.6節まで
- 5回目 3.1節から3.2節P85まで(私用のため欠席)
- 6回目 3.2節から3.3節P94まで