記事の概要
本記事は、以下で行われている『入門 情報幾何』読み会の勉強内容のメモです。本の著者は藤岡敦氏です。
本記事は、勉強会の進捗により随時更新いたします。
なお本記事の内容には、私の勉強不足による間違いが多々あると思うのでお気を付けください。
「書を読みて、その全てを信じれば、それは読まぬと等しきことなり」の精神で読んでいただければ幸いです。
『第2章 フィッシャー計量』について
2.1節を読む
確率関数の間の距離を定めるフィッシャー計量というものを考えるのが本章の目的です。
「確率関数の間の距離」というのは一体どういうことなのでしょうか?
統計的モデル$S$はユークリッド空間の開集合の点をパラメータにしているので、$S$の元である確率関数は点とみなすことができる。
点が複数あれば、その点間に距離を考えることができる。そういう理屈のようです。
点と点の距離はユークリッド計量から求まりますが、確率関数の距離には確率関数の性質を反映したフィッシャー計量を使います。
まず、2.1節はユークリッド計量の復習をしています。
接ベクトルの定義、リーマン計量を用いた曲線の長さの定義などが出てきま。
ここで合成関数が出てきますが、私は合成関数の性質を完全に忘れていたので、ここで復習しておきます。
例えば、2つの関数$f(x)=x^2$と$g(t)=2t$があったとします。
ここで$f \circ g = f(g(t)) = (2t)^2 = 4t^2$になります。
一方で$g \circ f = g(f(x)) = 2x^2$になります。
合成関数の微分については以下のようになります。
\begin{eqnarray}
(f \circ g)' &=& \frac{\partial f}{\partial x} \Biggl|_{x=g(t)} \frac{\partial g}{\partial t}
= 2g(t)*g'(t) = 2*2t*2 = 8t
\end{eqnarray}
\begin{eqnarray}
(g \circ f)' &=& \frac{\partial g}{\partial t} \Biggl|_{t=f(x)} \frac{\partial f}{\partial x}
= 2*f'(x) = 2*2x = 4x
\end{eqnarray}
$\gamma$と$\gamma \circ \varphi$の長さが等しいことは以下より分かります。
パラメータ$s$の値域を$[\alpha,\beta]$として、$(\gamma \circ \varphi)(s)$の長さを考えます。
\begin{eqnarray}
\int_{\alpha}^{\beta} \sqrt{g((\gamma \circ \varphi)'(s), (\gamma \circ \varphi)'(s))} ds
\end{eqnarray}
$t = \varphi(s)$とすれば$dt = (\partial \varphi / \partial s) ds$より、長さは以下に変形できます。
\begin{eqnarray}
\int_{\varphi(\alpha)=a}^{\varphi(\beta)=b} \sqrt{g((\gamma \circ \varphi)'(s), (\gamma \circ \varphi)'(s))} \frac{\partial \varphi}{\partial s} dt
\end{eqnarray}
また合成関数の微分は
\begin{eqnarray}
(\gamma \circ \varphi)'(s) = \frac{\partial \gamma }{\partial t} \Biggl|_{t=\varphi(s)} \frac{\partial \varphi}{\partial s}
= \gamma'(t) \frac{\partial \varphi}{\partial s}
\end{eqnarray}
となるので、長さは以下に変形できます。
\begin{eqnarray}
&& \int_{a}^{b} \sqrt{g(\gamma'(t), \gamma'(t))} \frac{\partial \varphi}{\partial s} \frac{\partial \varphi}{\partial s} dt \\
&=& \int_{a}^{b} \sqrt{g(\gamma'(t), \gamma'(t))} dt
\end{eqnarray}
よって$\gamma \circ \varphi$の長さは$\gamma$の長さと同じ式になります。
2.1節の最後には、リーマン計量の例、ユークリッド計量とポアンカレ計量が挙げられます。
各長さの計算は、簡単な積分の計算しか使わないので簡単だと思いますが、$\gamma_4$の計算だけは少し難しいかもしれません。
\begin{eqnarray}
L(\gamma_4) &=&
\int_0^1 \frac{\sqrt{(\pi-2\theta)^2 (\sin(\theta+(\pi-2\theta)t)^2 + (\pi-2\theta)^2 (-\cos(\theta+(\pi-2\theta)t)^2} }{\sin(\theta+(\pi-2\theta)t)} \\
&=& \int_0^1 \frac{\pi-2\theta}{\sin(\theta+(\pi-2\theta)t)}
\end{eqnarray}
$\theta+(\pi-2\theta)t = x$とおくと、$(\pi-2\theta) dt = dx$なので
\begin{eqnarray}
L(\gamma_4) &=&
\int_{\theta}^{\pi-\theta} \frac{\pi-2\theta}{\sin x} \frac{1}{\pi-2\theta}dx
= \int_{\theta}^{\pi-\theta} \frac{1}{\sin x} dx
\end{eqnarray}
ここで
\begin{eqnarray}
\sin x &=& \sin 2 \frac{x}{2} = 2 \sin \frac{x}{2} \cos \frac{x}{2}
= 2 \frac{\sin \frac{x}{2}}{\cos \frac{x}{2}} \cos^2 \frac{x}{2} \\
&=& 2 \tan \frac{x}{2} \frac{1}{1 + \tan^2 \frac{x}{2}}
\end{eqnarray}
なので$\tan \frac{x}{2} = y$として$\sin x = 2y/(1+y^2)$になります。
すると、
\begin{eqnarray}
\frac{dy}{dx}
&=& \Bigl (\tan \frac{x}{2} \Bigl)'
= \Bigl(\frac{\sin \frac{x}{2}}{\cos \frac{x}{2}} \Bigl)'
= \frac{1}{\cos^2 \frac{x}{2}} \Bigl(\frac{x}{2}\Bigl)' \\
&=& \frac{1}{2} \frac{1}{\cos^2 \frac{x}{2}}
= \frac{1}{2} \Bigl(1 + \tan^2 \frac{x}{2} \Bigl)
= \frac{1}{2} (1+y^2)
\end{eqnarray}
より、$dx = 2dy/(1+y^2)$となります。よって
\begin{eqnarray}
L(\gamma_4) &=&
= \int \frac{1}{\sin x} dx
= \int \frac{1+y^2}{2y} \frac{2}{1+y^2} dy
= \int \frac{1}{y} dy
= [\log y] = [\log \tan \frac{x}{2}] \\
&=& \Bigl[\log \tan \frac{\theta+(\pi-2\theta)t}{2} \Bigl]_0^1
= -2 \log \tan \frac{\theta}{2}
\end{eqnarray}
となります。
続く正定値の話は、ベクトルを成分と基底に分けて計算する話です。
2.2節を読む
本節では、ユークリッド空間の開集合の間の写像の微分について解説しています。
まず、接ベクトルの集合である接ベクトル空間がユークリッド空間の開集合に等しいことが示されます。
続いて、写像の微分からヤコビ行列を導出します。
先ほどと同じように、合成関数の微分を使います。
合成関数の微分なので、$f_i$について$x_i$について偏微分したものに対して、$x$に$\gamma(t_0)$を代入したものと、$\gamma_i$について$t$で微分した積の和になります。
次に$f$が単射であることと$\mathrm{Ker} = { 0 }$が同値であることが証明されます。
ここで導入される「はめ込み」について、WiKiでは以下のように定義されています。(日本語版は英語版を訳しただけのようです。日本語版は訳が少し不自然だったので英語版の方を引用します。)
an immersion is a differentiable function between differentiable manifolds whose differential (or pushforward) is everywhere injective.
(はめ込みとは、可微分多様体間の微分可能な関数である。その関数の微分(もしくは押し出し)は全ての点において単射となる)
本書においては、図2.5の$f$が、2つの可微分多様体$R^m$と$R^n$の間を写像する、微分可能な関数です。
$(df)_p$が点$p$における$f$関数の微分、もしくは$f$による点$p$の押し出しです。
任意の点$p$において$(df)_p$が単射ならば、$f$ははめ込みと呼ばれます。
勉強会においては、「はめ込み」と「埋め込み」の違いについて議論されました。
はめ込みや埋め込みはトポロジーなどでよく使われています。
「ざっくりわかるトポロジー」という本から引用すると、2つの違いは以下のように説明されています。
図形Xから図形Yへの埋め込みは、単射で、連続で、逆写像が連続である写像
はめ込みは、単射で、連続で、逆写像が連続である写像。単射でなくてもよい
はめ込みは単射でなくてもいい? これは本の定義と矛盾します、どういうことなのでしょうか?
ここでWiKiを読むと以下のように説明されています。
A smooth embedding is an injective immersion f : M → N that is also a topological embedding, so that M is diffeomorphic to its image in N.
(滑らかな埋め込みは、単射なはめ込み$f:M \to N$であり、位相的な埋め込みでもある。すなわち、$M$と$f(M)$(NにおけるMの像)は微分同相である。)
An immersion is precisely a local embedding
(はめ込みとは、正確には局所的な埋め込みである)
要するに、はめ込みは局所的には滑らかで、その微分は単射であるが、グローバルには特異点があって、単射でなくてもいいということのようです。
そして局所的に限定しているのならば、はめ込みと埋め込みは同じものとして扱ってよさそうです。
次には、十分統計量を用いてはめ込みの実例が紹介されます。
例2の3は全単射なので、例えば$\xi_1$を写像した$\xi_{F_n^{-1}(1)}$は$\xi_i$のどれか1つに必ず等しくなります。
(2.44)式において、「はめ込みの微分が単射であること」と、「(2.40)式のヤコビアンの階数が空間の次元に等しい」のは等価であることを示しました。
よってある写像がはめ込みであるか否かを判定する為には、そのヤコビアンの階数が空間の次元に等しいかを調べればいいということになります。
\begin{eqnarray}
\sum_{i=1}^n \frac{\partial \xi_{F_n^{-1}(i)}}{\partial \xi_j} = \sum_{i=1}^n \delta_{F_n^{-1}(i),j} e_j = e_{F_n^{-1}(j)}
\end{eqnarray}
より
\begin{eqnarray}
\Phi'(\xi) &=&
\Biggl(\sum_{i=1}^n \frac{\partial \xi_{F_n^{-1}(1)}}{\partial \xi_i} \frac{\partial \xi_i}{\partial t}, \cdots,
\sum_{i=1}^n \frac{\partial \xi_{F_n^{-1}(n)}}{\partial \xi_i} \frac{\partial \xi_i}{\partial t}\Biggl) \\
&=& (\xi'_1, \cdots , \xi'_n)
\begin{bmatrix}
e_{F_n^{-1}(1)} \\
\vdots \\
e_{F_n^{-1}(n)} \\
\end{bmatrix}
\end{eqnarray}
となるので、ヤコビアンの階数はnであり、はめ込みの条件を満たします。
例2の4は$\Phi_{m,i}: \xi^i \to \xi^i/m, \cdots, \xi^i/m = \eta^{i_1}, \cdots , \eta^{i_m}$の写像とみなせます。
写像の微分は
\begin{eqnarray}
\frac{\partial }{\partial \xi^i} \to \frac{1}{m} \sum_{j=1}^m \frac{\partial }{\partial \eta^{i_j}}
\end{eqnarray}
となります。よってヤコビアンの各成分は以下のようになります。
ここで$k,t = 1, \cdots , n$とします。
\begin{eqnarray}
\frac{\partial (\Phi_{m,n})_k}{\partial \xi^t}
&=& \frac{1}{m} \sum_{i=1}^m \frac{\partial (\Phi_{m,n})_k}{\partial \eta^{t_i}}
= \frac{1}{m} \sum_{i=1}^m \delta_{kt} e_{i}^{(t)}
\end{eqnarray}
これで$k=t$の対角成分のみが残るn×n行列(2.51)式が得られます。
例の2の5も同様です。
本節の最後には、はめ込みを用いてリーマン計量が定義されます。
はめ込み$f$によるリーマン計量$g$の誘導計量については、 以下の東京工業大学の幾何学特論第四の講義資料を参考にしました。
この資料によると、$f$がはめ込みであることと内積$g_{f(p)}$の正定性から、内積$(f*g)_p$の正定性が得られることを以下のように証明しています。
ここで
\begin{eqnarray}
(df)_p(X) = \frac{d}{dt}f \circ \gamma(t_0)
\end{eqnarray}
について
\begin{eqnarray}
(df)_p
\end{eqnarray}
を
\begin{eqnarray}
df = f_{*}
\end{eqnarray}
と書くことにします。
I) $f$がはめ込みの場合
$g$が正定値なので、$X \in T_p M$に対して
\begin{eqnarray}
f*g(X,X) = g(f_{*} X, f_{*} X) \geq 0
\end{eqnarray}
となります。
$f_{*}X = 0$ ならば $g(f_{*}X, f_{*}X) = 0$ になります。
$f$は単射なので $f_{*}X = 0$ ならば $X=0$ になります。
よって$f*g$は正定値になります。
II) $f*g$が正定値の場合
任意の$X \in T_p M$に対して
\begin{eqnarray}
f*g(X,X) = g(f_{*}X, f_{*}X) = g(0,0) = 0
\end{eqnarray}
となるので、$f*g(X,X)=0$になります。
$f*g$は正定値なので$X=0$になります。
よって$\mathrm{Ker} f_{*} = { 0 }$となるので$f_{*}$は単射になります。
2.3節を読む
ここで十分統計量を考えます。
まず事象空間として可算集合を考えます。
事象空間とは、実際に発生する事象の集合のことです。
コインの事象空間は{表,裏}で、サイコロの事象空間は${1,2,3,4,5,6}$です。事象は1個、2個と数えられるものなので、汎用的に抽象化した事象空間が可算集合になります。
(私は詳しくないので知らないだけで、もしかしたら小数点以下の事象を考える場合もあるかもしれませんが)
そして事象$i \in \Omega_n$の発生確率が$\xi_i$です。
ここで(2.59)式の条件を満たす$\xi_i$の閉集合$\bar{\Xi}$を考えます。確率が0以上になっているのが、境界を含むということです。
1.4節では0より大きい発生確率の開集合になっていたのと、この点が異なります。
注釈の閉集合の定義について差集合の記号が出てきます。$\mathbf{\mathrm{R}}^n \backslash A$は、$\mathbf{\mathrm{R}}^n$の要素であり、$A$の要素でないものの集合のことです。
要するに、$\mathbf{\mathrm{R}}^n \backslash A$は、$\mathbf{\mathrm{R}}^n$から$A$だけを切り抜いた集合です。
境界は$\mathbf{\mathrm{R}}^n \backslash A$と$A$のどちらかにないといけませんが、$\mathbf{\mathrm{R}}^n \backslash A$が開集合ならば、境界を持つのは$A$の方です。よって$A$が閉集合になります。
この発生確率に対して(2.60)の確率関数を定めたものが、統計的モデル$\bar{S}$です。
$\bar{S}$は、境界を持たない内部$S$と境界$\partial \bar{S}$の和集合$\bar{S} = S \cup \partial \bar{S}$になります。
統計空間の間の写像についても、はめ込みを考えることができます。
m次元統計的モデルからn次元統計的モデルへの写像$\Phi$が「はめ込み」であると仮定します。
$\Phi(\bar{S}_m)$も$\Omega_n$上のn次元統計的モデルなので、(2.67)を満たします。
ここで$\Phi(\bar{S}_m)$に関する十分統計量を考えます。
事象空間の間の写像$F:\Omega_n \to \Omega_m$を全射として、この$F$における(2.70)式が$\xi$に依存しないのならば、$F$を$\Phi(\bar{S}_m)$に関する十分統計量と呼びます。
このような$F$を持つ$\Phi$をマルコフはめ込みと呼びます。
例2.6から例2.9まではマルコフはめ込みの具体例です。
例2.6から例2.8は、1.4節で全射$F$が十分統計量であることを示し、2.2節ではめ込みであることを示しているので、特に計算するまでもなくマルコフはめ込みと分かります。
例2.9については、はめ込みであることと十分統計量であることの2つを示してあげないといけません。
例2.9の写像は、写像された空間の次元を1つ増やし、n+1番目の成分は$1-\sum_{i=1}^n \xi_i$になります。
\begin{eqnarray}
\sum_{i=1}^{n+1} \bar{\Phi}_i = \sum_{i=1}^{n} \xi_i + 1 - \sum_{i=1}^{n} \xi_i = 1
\end{eqnarray}
なので、(2.64)の境界の条件を満たします。よって$\bar{\Phi}$はn+1番目の成分が$1-\sum_{i=1}^n \xi_i$のn+1次元空間の境界$\partial \Xi_{n+1}$の部分集合とみなせます。
ヤコビアンは以下の$\bar{\Phi}$の微分から求まります。
\begin{eqnarray}
\frac{\partial (\bar{\Phi})_i}{\partial \xi_j} &=& \frac{\partial \xi_i}{\partial \xi_j} = \delta_{ij}
\end{eqnarray}
\begin{eqnarray}
\frac{\partial (\bar{\Phi})_{n+1}}{\partial \xi_j} &=& \frac{\partial (1-\sum_{i=1}^n \xi_i)}{\partial \xi_j} = - \sum_{i=1}^n \delta_{ij} = - 1
\end{eqnarray}
よって(2.84)が求まり、その階数が$n$になるので、はめ込みであることが示されます。
全射はn+1次元空間からn次元空間への写像で、n+1次元空間のn+1番目の成分に対応する元がn次元空間にはありませんが、全射なので何らかの元には必ず対応させないといけないので、0と結びつけて$\bar{F}_n(n+1)=0$とします。
よって0と結びつくのは$\bar{F}_n(0)$と$\bar{F}_n(n+1)$になったので、確率関数の第0成分$q(0;\bar{\Phi}_n(\xi))$は、第0成分$p(0;\bar{\Phi}_n(\xi))$と第n+1成分$p(n+1;\bar{\Phi}_n(\xi))$の和になります。
\begin{eqnarray}
q(i;\bar{\Phi}_n(\xi)) = \sum_{j \in \bar{F}^{-1}(i)} p(j;\bar{\Phi}_n(\xi))
\end{eqnarray}
については、$j \in \bar{F}^{-1}(i)$に含まれる成分が$i$のみなので(2.90)式になります。
続く計算により、十分統計量であることも示され、マルコフはめ込みであることが証明できます。
「情報幾何学の基礎」におけるマルコフ埋め込みの定義との違い
余談になりますが、「情報幾何学の基礎」の5.1節におけるマルコフ埋め込みの定義が、(はめ込みと埋め込みの違いがあるとはいえ)本書と同じに見えないので戸惑いました。
「情報幾何学の基礎」の方は、より確率分布空間の幾何学的な構造に注目しているかんじです。
例えば、次元数の異なる統計的モデリング間(2次元と3次元)を写像で結ぶことについて、
データの同一視を介して$S_{2-1}$の幾何構造が$S_{3-1}$の幾何構造から誘導されるはずである
と強調したり、幾何学的構造の頂点を事象に対応させたりしています。
そういうことを踏まえた上で定義を見ると、P109の定義の(i)と(ii)は、写像された事象と確率であり、本書において、写像された事象空間上の統計的モデル$\Phi(\bar{S}_m)$が存在しているのと似ています。
一方で(iii)については、全射$F$の満たすべき条件を定めているのですが、本書と大きく異なると思いました。
「情報幾何学の基礎」の方では$F:x_i \to y_i$により全射された像を具体的に(iii)の式で定めています。
一方で本書では、$F$の像の具体的な式は定めずに、$F$による(2.70)式が確率に依存しないという条件だけを定めています。
2.4節を読む
この節では、マルコフはめ込みである写像に対して不変な(0,2)型テンソルを考えます。
まずマルコフはめ込みとは無関係な一般の(0,2)テンソルの定義を紹介します。これは特に難しいことは何もありません。
次の話は私はよく分かりませんでした。
境界を含まない開集合(つまり「内部」)である$\Xi_n$の接ベクトル全体の集合は$R_n$になる。これは2.1節で証明した話です。これは分かります。
(2.93)式を満たす境界$\partial \bar{\Xi}_n$の接ベクトルは(2.94)のようになる。これも分かります。高校数学でやるような初歩的な境界上の点の話です。
ですが
$\partial \bar{\Xi}_n$上ではこのような接ベクトルをとる写像を考えることにより、$\bar{\Xi}_n$上の$C^{\infty}$級の(0,2)型テンソル場を定めることができる
という文章は、よく理解できませんでした。ですが、そういうものだと受け入れてしまえば、以降の話を理解するのに特に支障はないので、あまり気にしないことにします。
また、最初に「不変性という統計学的に自然な要請」という言葉が出てきます。これはどのような意味なのでしょうか。
「情報幾何学の基礎」P108とP109の説明が「統計学的に自然な要請」の説明になっているかもしれません。
確率分布空間の幾何学的構造もラベルの取り替えに対して不変であるべきである。
任意に固定した混合比で事象1と2が生じる確率分布全体からなるS3の部分多様体MとS2とは統計学的に同等である。
統計的同等性を持つ部分多様体を対応付ける写像がマルコフ埋め込みである
ラベルの取り替え、つまりマルコフはめ込みの写像による座標変換で結ばれる2つの幾何学的空間が統計的に同等であるというわけです。(2.95)式が、その統計的同等性を示しているのだと私は解釈しました。
よってチェンツォフの定理は、マルコフはめ込みで結ばれる2つの幾何学的空間が、統計的に同等な(2.95)式であるためには、(2.96)式を満たしていないといけない、という定理なのだと思います。
本節ではチェンツォフの定理の必要条件の証明をします。
例2.6から例2.9までおいて扱った$\Phi$による$g$の誘導計量を考えます。
(2.57)式に、それぞれの例の場合のヤコビアンを代入していきます。
途中計算が分からずに悩んでいたところ、松森至宏氏のツイッターに計算メモがあり、大変参考になりました。
証明の第一段階では、(2.57)に(2.48)を代入し、$e_i$との積で残るのは$e_{F_n(i)}$のみであので(2.98)が求まります。(1Xnの単位行列とnXnの単位行列の集合の積です。)
ここで(2.99)と(2.100)で$\lambda_n$と$\mu_n$を定義しています。$g_m$が$g_{mn}$になれば、$\lambda_{mn}$と$\mu_{mn}$になります。
また、(2.99)は$(e_i,e_i)$はiに依存せずに同じ値になり、(2.100)は$i \neq j$ならば$(e_i,e_j)$は$i,j$に依存せずに同じ値になります。
これは$g$がある定数行列$A$と$B$を用いて$g = \delta_{ij}A+B$と表現できることを示しています。
また$\Phi^* g_n = g_m$なので(2.98)と(2.100)は同じになります。
証明の第二段階では、(2.57)に(2.51)を代入し(2.101)が求まります。
$\Phi^* g_{mn} = g_n$なので($\Xi_{mn}$上の計量は$g_{mn}$で、$\Xi_n$上の計量は$g_n$)、$\mu_{mn}(t)=\mu_n(t)$になります。
(2.101)はnに依存しないので、$\mu_n(t)$もnに依存しないというわけです。
$i \neq j$の場合は基底$e_{(i-1)m+k}$と$e_{(j-1)m+t}$が一致することはありません。
一方で、$i=j$の場合は$k=1, \cdots, m$と$t=1, \cdots, m$の組み合わせの内、$k=t$になるm個について、基底$e_{(i-1)m+k}$と$e_{(i-1)m+t}$が一致します。
$k \neq t$になる$m^2-m$個については基底は一致しません。
よって
\begin{eqnarray}
(g_{mn})_{\xi_{mn,t}} \Biggl( \frac{m}{m^2}(e'_i, e'_i) + \frac{m^2-m}{m^2}(e'_i, e'_j) \Biggl)
\end{eqnarray}
から(2.103)が求まります。
$\Phi^* g_{mn} = g_n$なので
\begin{eqnarray}
(\Phi^*_{m,n} g_{mn})_{\xi_{mn,t}} (e_i,e_i)
&=& (g_n)_{\xi_{n,t}} (e_i,e_i) \\
&=& \lambda_n(t)
\end{eqnarray}
より
\begin{eqnarray}
\frac{1}{m} \lambda_{mn}(t) + \frac{m-1}{m} \mu(t)
&=& \lambda_n(t)
\end{eqnarray}
なので(2.104)式が求まります。
$mn$は$m$が任意の値を取れるので$n$の値とは関係なく任意の値になるため、$n$とは違う値とみなします。よって左辺に$n$の項はないので、右辺は$n$に依存しません。左辺を$\nu(t)$とすれば(2.105)式が求まります。
証明の第三段階では、(2.57)式に(2.55)式を代入します。
\begin{eqnarray}
(\Phi^*_{m} g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )} (e_i,e_j)
&=& (g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )}
\Biggl(
\frac{1}{m_i} \sum_{k=1}^{m_i} e^{'(i)}_{k} \ \ , \frac{1}{m_j} \sum_{t=1}^{m_j} e^{'(j)}_{t}
\Biggl)
\end{eqnarray}
$i \neq j$の場合は、第2段階と全く同じように、
\begin{eqnarray}
(\Phi^*_{m} g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )}
= (g_n)_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )}
\end{eqnarray}
なので、上式は$\mu(t)$になります。
$t = \sum_{k=1}^n \frac{m_k}{m}t$より(2.107)が求まります。
$i=j$の場合は、基底が同じになる組み合わせが$m_i$個、一致しない組み合わせが$m_i^2-m_i$個なので
\begin{eqnarray}
(\Phi^*_{m} g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )} (e_i,e_i)
&=& (g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )}
\Biggl(
\frac{1}{m_i} \sum_{k=1}^{m_i} e^{'(i)}_{k} \ \ , \frac{1}{m_i} \sum_{t=1}^{m_i} e^{'(i)}_{t}
\Biggl) \\
&=&
\frac{1}{m_i^2}
\Bigl(
m_i (g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )} (e^{'(i)}_{k}, e^{'(i)}_{k})
+ (m_i^2 - m_i ) (g_{m})_{(\frac{m_1}{m}t, \cdots, \frac{m_n}{m}t )} (e^{'(i)}_{k}, e^{'(i)}_{t})
\Bigl) \\
&=&
\frac{1}{m_i^2}
(
m_i \lambda_m(t)
+ (m_i^2 - m_i ) \mu(t)
) \\
&=&
\frac{1}{m_i^2}
(
m_i (m \nu(t) + \mu(t))
+ (m_i^2 - m_i ) \mu(t)
) \\
&=&
\frac{m}{m_i} \nu(t) + \mu(t)
\\
&=&
\frac{m}{m_i t} \Biggl( \sum_{k=1}^n \frac{m_k}{m}t \Biggl) \nu \Biggl(\sum_{k=1}^n \frac{m_k}{m}t \Biggl) + \mu \Biggl(\sum_{k=1}^n \frac{m_k}{m}t \Biggl)
\end{eqnarray}
最後の式の展開には$t = \sum_{k=1}^n \frac{m_k}{m}t$を用いました。
ここで$\frac{m_i t}{m} = \xi_i$として、$i=j$の場合と$i \neq j$の場合をまとめれば(2.110)式になります。
証明の第四段階は(2.110)式をベクトルの計算に拡張したものになります。普通に計算するだけで、特に難しいことはありません。
2項目は境界の接ベクトルの条件(2.94)式より0になります。
証明の第五段階では、以下のmatさんの計算が参考になります。
\begin{eqnarray}
(\bar{\Phi}^*_2g_3)_{(\xi,\eta)}(e_1,e_1)
&=& (g_3)_{(\xi,\eta, 1-\xi-\eta)}(e'_1-e'_3, e'_1-e'_3)
\end{eqnarray}
(2.111)式に$v_i=(1,0,-1)$、$w_i=(1,0,-1)$、$\xi_i=(\xi,\eta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*1}{\xi} + \frac{0*0}{\eta} + \frac{(-1)*(-1)}{ 1-\xi-\eta} \Biggl) \nu(\xi+\eta+1-\xi-\eta) \\
&=& \Biggl( \frac{1}{\xi} + \frac{1}{ 1-\xi-\eta} \Biggl) \nu(1)
\end{eqnarray}
から(2.113)式が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_2g_3)_{(\xi,\eta)}(e_1,e_1)
&=& (g_2)_{(\xi,\eta)}(e_1,e_1)
\end{eqnarray}
(2.110)式に$v_i=(1,0)$、$w_i=(1,0)$、$\xi_i=(\xi,\eta)$を代入して
\begin{eqnarray}
(g_2)_{(\xi,\eta)}(e_1,e_1)
&=& \frac{\xi+\eta}{\xi} + \mu(\xi+\eta)
\end{eqnarray}
が求まります。
この式は(2.113)式と等しいので、(2.114)式が求まります。
同様にして
\begin{eqnarray}
(\bar{\Phi}^*_2g_3)_{(\xi,\eta)}(e_1,e_2)
&=& (g_3)_{(\xi,\eta, 1-\xi-\eta)}(e'_1-e'_3, e'_2-e'_3)
\end{eqnarray}
(2.111)に$v_i=(1,0,-1)$、$w_i=(0,1,-1)$、$\xi_i=(\xi,\eta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*0}{\xi} + \frac{0*1}{\eta} + \frac{(-1)*(-1)}{ 1-\xi-\eta} \Biggl) \nu(\xi+\eta+1-\xi-\eta) \\
&=& \frac{1}{ 1-\xi-\eta} \nu(1)
\end{eqnarray}
から(2.115)が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_2g_3)_{(\xi,\eta)}(e_1,e_2)
&=& (g_2)_{(\xi,\eta)}(e_1,e_2)
\end{eqnarray}
(2.110)に$v_i=(1,0)$、$w_i=(0,1)$、$\xi_i=(\xi,\eta)$を代入して
\begin{eqnarray}
(g_2)_{(\xi,\eta)}(e_1,e_2)
&=& \mu(\xi+\eta)
\end{eqnarray}
が求まります。
この式は(2.115)式と等しいので、(2.116)式が求まります。
そして(2.117)式から(0,2)型テンソルに対するチェンツォフの定理が求まります。
2.5節を読む
本節ではFisher計量を定義しています。
これが本章の目的である、確率関数の2点間の距離を定める計量です。前節ではマルコフはめ込みに対して不変な統計的モデルを考えました。
この統計的モデル上のリーマン計量がFisher計量です。
本節の計算は簡単なので、計算過程について特に補足するところはありません。チェンツォフの定理から(2.124)が求まります。
ここで(2.121)は実際に展開すれば(2.119)と同じになります。
\begin{eqnarray}
(g_n)_{\xi}(\mathbf{v}, \mathbf{v})
&=& \Biggl( \sum_{i=1}^n \Bigl(1- \sum_{t=1}^n \xi_t \Bigl) \Bigl(-\sum_{t=1}^n \delta_{it} \Bigl)^2 \Biggl)\Biggl( \frac{1}{1- \sum_{t=1}^n \xi_t} \Biggl)^2
+ \sum_{k=1}^n \Biggl( \sum_{i=1}^n \frac{1}{\xi_k} \delta_{ik} \Biggl)^2 \xi_k \\
&=& \Biggl( \sum_{i=1}^n v_i \Biggl)^2 \frac{1}{1- \sum_{t=1}^n \xi_t} + \sum_{k=1}^n \frac{v_k^2}{\xi_k}
\end{eqnarray}
例2.10)と例2.11)は、Fisher情報量の具体的な計算例を示しています。
例2.10)は1章で示した以下の2項定理の公式を使用します。
\begin{eqnarray}
\sum_{k=0} {}_n C_k \xi^k (1-\xi)^{n-k} &=& 1 \\
\sum_{k=0} k {}_n C_k \xi^k (1-\xi)^{n-k} &=& n \xi \\
\sum_{k=0} k^2 {}_n C_k \xi^k (1-\xi)^{n-k} &=& n(n-1)\xi^2 + n \xi
\end{eqnarray}
このFisher情報量は機械学習や統計でも出てくる式です。
例えばCramer-Raoの定理というものがあります。
【Cramer-Raoの定理】
任意の不変推定量$\tilde{\beta}$に関する共変分散行列$V(\tilde{\beta})$は、Fisher情報行列$J$の$N$倍の逆行列を上回ることがない
\begin{eqnarray}
V(\tilde{\beta}) \geq (NJ)^{-1}
\end{eqnarray}
具体的な証明は「統計的機械学習の数理100問」の4.2節などをご参照ください。
不変推定量というのは真の値$\beta$が分からない時に、標本から測定した推定量です。例えば工場での検品したデータを標準正規分布に従うと仮定して、不良率を推測したりします。
真の値から外れた変動の度合いを測る尺度が分散ですが、その分散の上限値はFisher情報行列の逆行列より小さくなることがありません。
分散行列を正確に計算するのが難しい場合など、分散の上限を定めてくれるFisher情報行列は便利なものです。
Fisher情報量については以下の「へちやぼらけ・データサイエンティスト」さんの動画もご参照ください。
例2.11)では、Fisher情報量が$1/\xi$で、分散が$\xi$であり、実際に分散がFisher情報行列の逆行列になっています。
次にはFisher計量の2つの性質、単調性と不変性を示します。
これは定理2.2から示すことができます。
ある統計的モデル$\Omega$上のFisher計量と、マルコフはめ込みを満たす全射$\Omega \to \Omega'$の$\Omega'$上のFisher計量の差分$\Delta g_{ij}(\xi)$を考えます。
この証明では$\partial_i \log p = \partial_i \log p - \partial_i \log q + \partial_i \log q = \partial_i \log r + \partial_i \log q$の置き換えと、(1.102)式
\begin{eqnarray}
\sum_{y \in \Omega'} q(y:\xi) = \sum_{x \in \Omega} p(x:\xi)
\end{eqnarray}
を使用します。
(2.149)式が半正定値であることから、(2.144)式も半正定値になります。
(2.150)式より、FがSについての十分統計量ならば差分が0になる、すなわち写像に対して不変であることが示されます。
そして、これはチェンツォフの定理の十分条件でもあります。
Fisher計量が(2.96)式の式で与えられるならば、マルコフはめ込みに対する不変性が成立していることを定理2.2は示しています。
2.6節を読む
本節では(0,3)型テンソルのチェンツォフの定理を証明します。
まず定義2.4で(0,3)型テンソルを定めます。
そしてマルコフはめ込みの写像に対する不変性(2.156)式が成立するならば、(2.157)式が成立することを示します。
証明の手順は(0,2)型テンソルと同様です。
第一段階では、例2.6)について、$i,j,k$が全て同じ場合、2つだけ同じ場合、全て異なる場合についての不変性から、$\lambda_n, \mu_n, \nu_n$が$i,j,k$に依存しないことを示します。
第二段階では、例2.7)について、$i,j,k$が全て同じ場合、2つだけ同じ場合、全て異なる場合についての不変性を考えます。
全て異なる場合は(2.164)が求まります。
2つだけ同じ場合、基底の全組み合わせが$m^2$個、基底が同じ組み合わせが$m$個、基底が異なる組み合わせが$m^2-m$個で(2.165)式が求まります。
全て同じ場合、基底の全組み合わせが$m^3$個、基底が3つとも同じ組み合わせが$m$個、基底が2つだけ同じ組み合わせは3パターンあり、それぞれが$m^2-m$個、基底が異なる組み合わせが$m^3-3m^2+2m$個で(2.168)式が求まります。
第三段階と第四段階も同様です。
第五段階では、(2.180)式に$u_i=(1,0,0,-1)$、$v_i=(1,0,0,-1)$、$w_i=(1,0,0,-1)$、$\xi_i=(\xi,\eta,\zeta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*1*1}{\xi^2} + \frac{0*0*0}{\eta^2} + \frac{0*0*0}{\zeta^2} + \frac{(-1)*(-1)*(-1)}{ (1-\xi-\eta-\zeta)^2} \Biggl) \psi(\xi+\eta+\zeta+1-\xi-\eta-\zeta) \\
&=& \Biggl( \frac{1}{\xi^2} - \frac{1}{ (1-\xi-\eta-\zeta)^2} \Biggl) \psi(1)
\end{eqnarray}
から(2.182)式が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_3 T_4)_{(\xi,\eta, \zeta)}(e_1,e_1,e_1)
&=& (T_3)_{(\xi,\eta, \zeta)}(e_1,e_1,e_1)
\end{eqnarray}
(2.178)式に$u_i=(1,0,0)$、$v_i=(1,0,0)$、$w_i=(1,0,0)$、$\xi_i=(\xi,\eta,\zeta)$を代入して
\begin{eqnarray}
(T_3)_{(\xi,\eta, \zeta)}(e_1,e_1,e_1)
&=& \frac{(\xi+\eta+\zeta)^2}{\xi^2} \psi(\xi+\eta+\zeta) + \mu(\xi+\eta+\zeta)
+ \frac{3}{\xi}(\xi+\eta+\zeta) \varphi(\xi+\eta+\zeta) + \nu(\xi+\eta+\zeta)
\end{eqnarray}
が求まります。
この式は(2.182)式と等しいです。
同様に、(2.180)式に$u_i=(1,0,0,-1)$、$v_i=(1,0,0,-1)$、$w_i=(0,1,0,-1)$、$\xi_i=(\xi,\eta,\zeta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*1*0}{\xi^2} + \frac{0*0*1}{\eta^2} + \frac{0*0*0}{\zeta^2} + \frac{(-1)*(-1)*(-1)}{ (1-\xi-\eta-\zeta)^2} \Biggl) \psi(\xi+\eta+\zeta+1-\xi-\eta-\zeta) \\
&=& - \frac{1}{ (1-\xi-\eta-\zeta)^2} \psi(1)
\end{eqnarray}
から(2.183)式が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_3 T_4)_{(\xi,\eta, \zeta)}(e_1,e_1,e_2)
&=& (T_3)_{(\xi,\eta, \zeta)}(e_1,e_1,e_2)
\end{eqnarray}
(2.178)式に$u_i=(1,0,0)$、$v_i=(1,0,0)$、$w_i=(0,1,0)$、$\xi_i=(\xi,\eta,\zeta)$を代入して
\begin{eqnarray}
(T_3)_{(\xi,\eta, \zeta)}(e_1,e_1,e_2)
&=& \frac{1}{\xi}(\xi+\eta+\zeta) \varphi(\xi+\eta+\zeta) + \nu(\xi+\eta+\zeta)
\end{eqnarray}
が求まります。
この式は(2.183)式と等しいです。
更に、(2.180)式に$u_i=(1,0,0,-1)$、$v_i=(0,1,0,-1)$、$w_i=(0,0,1,-1)$、$\xi_i=(\xi,\eta,\zeta, 1-\xi-\eta)$を代入して
\begin{eqnarray}
(上式)
&=& \Biggl( \frac{1*0*0}{\xi^2} + \frac{0*1*0}{\eta^2} + \frac{0*0*1}{\zeta^2} + \frac{(-1)*(-1)*(-1)}{ (1-\xi-\eta-\zeta)^2} \Biggl) \psi(\xi+\eta+\zeta+1-\xi-\eta-\zeta) \\
&=& - \frac{1}{ (1-\xi-\eta-\zeta)^2} \psi(1)
\end{eqnarray}
から(2.184)式が求まります。
今回も以下の不変性が成立します。
\begin{eqnarray}
(\bar{\Phi}^*_3 T_4)_{(\xi,\eta, \zeta)}(e_1,e_2,e_3)
&=& (T_3)_{(\xi,\eta, \zeta)}(e_1,e_2,e_3)
\end{eqnarray}
(2.178)式に$u_i=(1,0,0)$、$v_i=(0,1,0)$、$w_i=(0,0,1)$、$\xi_i=(\xi,\eta,\zeta)$を代入して
\begin{eqnarray}
(T_3)_{(\xi,\eta, \zeta)}(e_1,e_2,e_3)
&=& \nu(\xi+\eta+\zeta)
\end{eqnarray}
が求まります。
この式は(2.184)式と等しいです。
これらの式から(2.187)が求まり、チェンツォフの定理が得られます。
『第3章 α接続』について
本章では、統計的モデルの幾何学的性質を調べるために、接続の微分幾何学について解説しています。
本章には数式に誤植があったりするので、以下の正誤表で確認することをお勧めします。
3.1節を読む
曲線の接ベクトルを考えたとき、接ベクトルが曲線に沿って平行になるならば、この曲線を測地線と呼びます。
ここでは証明しませんが、測地的曲率ベクトルが0になるならば、曲線の接ベクトルの変化率は法線方向のみになります。
つまり接ベクトルの変化方向が常に一定であること、曲線に沿って平行であることが分かります。
3.1節ではまず正則な曲線$\gamma(t)$を定めます。
そしてリーマン計量$g$と接ベクトル$\gamma'(t)$を用いて曲線の長さ(3.1)式を定義します。
$\gamma:[a,b] \to D$、$L^{-1}:[L(a), L(b)] \to [a,b]$より、これらを合成したD内の曲線$\tilde{\gamma}= \gamma \circ L^{-1}:[L(a), L(b)] \to D$を考えます。
$\tilde{\gamma}'(s)$は(3.4)式を満たす単位接ベクトルです。
以降に考える曲線は全て$\tilde{\gamma}$とみなし、改めて$\gamma$と表記するようです。
次に最短線を考えます。
点aから点bを結ぶ曲線を考え、その2点を結ぶ経路の変形する余地をパラメータ$s \in (\epsilon, -\epsilon)$で表します。
そして曲線$\gamma$が最短線ならば、(3.9)式を満たします。
(3.9)式を具体的に計算すれば、測地線の方程式(3.20)式が求まります。
つまり、ユークリッド空間の2点を結ぶ最短の曲線は、測地線でないといけません。
なおユークリッド空間上の曲線をリーマン多様体上の曲線に拡張した場合は、最短曲線という性質はなく、停留値を与える停留曲線を考えます。
同じような条件式を定めて、曲線をパラメータ$s$について変分を取った時に停留する条件と言ったりします。
曲線がこの条件を満たす停留曲線ならば、それは測地線でないといけません。
本書における合成関数を使った記法は私には馴染みのないものなので混乱しました。
$g_{ij} \circ \alpha$は$g_{ij}(p)$、
\begin{eqnarray}
\frac{\partial }{\partial s} (g_{ij} \circ \alpha)
= \sum_{k=1}^n \Biggl( \frac{\partial g_{ij} }{\partial x_k} \circ \alpha \Biggl) \frac{\partial \alpha_k}{\partial s}
\end{eqnarray}
については
\begin{eqnarray}
\frac{\partial }{\partial s} g_{ij}(p)
= \sum_{k=1}^n \frac{\partial g_{ij}(p) }{\partial \alpha_k} \frac{\partial \alpha_k}{\partial s}
\end{eqnarray}
という記法の方が分かりやすいのではと思いました。
(3.8)式で$\alpha$と$\gamma$は同じなのに、式の中で使い分けている理由もよく分かりませんでした。
具体的に(3.9)を計算をしてみます。
(3.12)式の分母のルートは定数$c$と簡潔に表記することにします。
以下の部分積分で(3.13)式を展開すれば、(3.16)式になります。($t$で微分するパラメータを$\alpha_i$から$\gamma_i$に書き換えます。)
\begin{eqnarray}
&& \int_a^b (g_{ij} \circ \alpha) \frac{\partial^2 \alpha_i}{\partial s \partial t} \frac{\partial \alpha_j}{\partial t} dt \\
&=& \Biggl[ (g_{ij} \circ \alpha) \frac{\partial \alpha_i}{\partial s} \frac{\partial \alpha_j}{\partial t} \Biggl]_a^b
- \int_a^b \frac{\partial}{\partial t} \Biggl( (g_{ij} \circ \alpha) \frac{\partial \alpha_j}{\partial t} \Biggl) \frac{\partial \alpha_i}{\partial s}dt \\
&=& (g_{ij} \circ \alpha) \frac{\partial \alpha_i(b,s)}{\partial s} \frac{\partial \alpha_j(b,s)}{\partial t}
- (g_{ij} \circ \alpha) \frac{\partial \alpha_i(a,s)}{\partial s} \frac{\partial \alpha_j(a,s)}{\partial t}
- \int_a^b \Biggl( \frac{\partial g_{ij}}{\partial x_k} \circ \alpha \Biggl) \frac{\partial \alpha_k}{\partial t} \frac{\partial \alpha_i}{\partial s} \frac{\partial \alpha_j}{\partial t} dt
- \int_a^b (g_{ij} \circ \alpha ) \frac{\partial \alpha_i}{\partial s} \frac{\partial^2 \alpha_j}{\partial t^2} dt \\
&=& - \int_a^b \Biggl( \frac{\partial g_{ij}}{\partial x_k} \circ \alpha \Biggl) \frac{\partial \alpha_k}{\partial t} \frac{\partial \alpha_i}{\partial s} \frac{\partial \alpha_j}{\partial t} dt
- \int_a^b (g_{ij} \circ \alpha ) \frac{\partial \alpha_i}{\partial s} \frac{\partial^2 \alpha_j}{\partial t^2} dt
\end{eqnarray}
(3.16)式の計算は簡単ですが、長いので整理すると、
(3.16)第1式の1項が、(3.16)第2式の4項になります。
(3.16)第1式の2項が、(3.16)第2式の2項になります。
(3.16)第1式の3項と5項が、(3.16)第2式の1項になります。
(3.16)第1式の4項が、(3.16)第2式の3項になります。
(3.9)式の条件より、(3.18)式は0にならないといけないので、測地線の方程式(3.20)式が求まります。
命題3.1について、(3.21)式の最後の式が添え字$i,j,k$の入れ替えに対して不変であることを利用して、打ち消しあうように添え字を書き換えれば0になります。
例3.1)はユークリッド空間において、測地線の方程式を満たす曲線が直線であることを示しています。
つまりユークリッド空間において2点間を結ぶ最短の曲線は、直線になるわけです。
例3.2)はポアンカレ上半平面の測地線の方程式を求めて、解きます。
\begin{eqnarray}
\Gamma_{11}^1
&=& \frac{1}{2} \sum_{i=1} g^{1i} \Biggl( \frac{\partial g_{i1}}{\partial x} + \frac{\partial g_{1i}}{\partial x} - \frac{\partial g_{11}}{\partial x_i} \Biggl) \\
&=& \frac{1}{2} g^{11} \Biggl( \frac{\partial g_{11}}{\partial x} + \frac{\partial g_{11}}{\partial x} - \frac{\partial g_{11}}{\partial x} \Biggl) \\
&=& 0
\end{eqnarray}
\begin{eqnarray}
\Gamma_{12}^1 = \Gamma_{21}^1
&=& \frac{1}{2} \sum_{i=1} g^{1i} \Biggl( \frac{\partial g_{i1}}{\partial y} + \frac{\partial g_{2i}}{\partial x} - \frac{\partial g_{12}}{\partial x_i} \Biggl) \\
&=& \frac{1}{2} g^{11} \Biggl( \frac{\partial g_{11}}{\partial y} + \frac{\partial g_{21}}{\partial x} \Biggl) \\
&=& \frac{1}{2} g^{11} \Biggl(\frac{\partial g_{11}}{\partial y} \Biggl) \\
&=& - \frac{1}{2} y^2 \frac{2}{y^3} \\
&=& - \frac{1}{y}
\end{eqnarray}
\begin{eqnarray}
\Gamma_{11}^2
&=& \frac{1}{2} \sum_{i=1} g^{2i} \Biggl( \frac{\partial g_{i1}}{\partial x} + \frac{\partial g_{1i}}{\partial x} - \frac{\partial g_{11}}{\partial x_i} \Biggl) \\
&=& \frac{1}{2} g^{22} \Biggl( \frac{\partial g_{11}}{\partial x} + \frac{\partial g_{21}}{\partial x} - \frac{\partial g_{11}}{\partial y} \Biggl) \\
&=& \frac{1}{2} g^{22} \Biggl(- \frac{\partial g_{11}}{\partial y} \Biggl) \\
&=& \frac{1}{2} y^2 \frac{2}{y^3} \\
&=& \frac{1}{y}
\end{eqnarray}
\begin{eqnarray}
\Gamma_{22}^2
&=& \frac{1}{2} \sum_{i=1} g^{2i} \Biggl( \frac{\partial g_{i2}}{\partial y} + \frac{\partial g_{2i}}{\partial y} - \frac{\partial g_{22}}{\partial x_i} \Biggl) \\
&=& \frac{1}{2} g^{22} \Biggl( \frac{\partial g_{22}}{\partial y} + \frac{\partial g_{22}}{\partial y} - \frac{\partial g_{22}}{\partial y} \Biggl) \\
&=& \frac{1}{2} g^{22} \Biggl(\frac{\partial g_{22}}{\partial y} \Biggl) \\
&=& - \frac{1}{2} y^2 \frac{2}{y^3} \\
&=& - \frac{1}{y}
\end{eqnarray}
他のクリストッフェルの記号も同様に計算できます。
余談ですが、曲線に出てくる繰り返しの計算は紙に手で書くと大変ですが、LaTeXならコピペして少しずつ変えていくだけなので簡単です。
私が大学院生として理論物理学の研究室にいた時、私の指導教授は複雑な計算を紙にではなく、LaTeX上で計算していました。
測地線の方程式にこれらを代入します。
\begin{eqnarray}
\frac{d^2x}{dt^2} + \Gamma_{12}^1 \frac{d x}{dt} \frac{d y}{dt} + \Gamma_{21}^1 \frac{d y}{dt} \frac{d x}{dt}
= x'' -\frac{2}{y} x' y' = 0
\end{eqnarray}
\begin{eqnarray}
\frac{d^2 y}{dt^2} + \Gamma_{11}^2 \frac{d x}{dt} \frac{d x}{dt} + \Gamma_{22}^2 \frac{d y}{dt} \frac{d y}{dt}
= y'' +\frac{1}{y} \{ (x')^2 + (y')^2 \} = 0
\end{eqnarray}
\begin{eqnarray}
\frac{d^2x}{dt^2} + \Gamma_{12}^1 \frac{d x}{dt} \frac{d y}{dt} + \Gamma_{21}^1 \frac{d y}{dt} \frac{d x}{dt}
= x'' -\frac{2}{y} x' y' = 0
\end{eqnarray}
\begin{eqnarray}
\frac{d^2 y}{dt^2} + \Gamma_{11}^2 \frac{d x}{dt} \frac{d x}{dt} + \Gamma_{22}^2 \frac{d y}{dt} \frac{d y}{dt}
= y'' +\frac{1}{y} \{ (x')^2 + (y')^2 \} = 0
\end{eqnarray}
$x' = Cy^2$とすれば測地線の方程式の第1式を満たします。
命題3.1より以下の条件が求まります。
\begin{eqnarray}
1 &=& g(\gamma', \gamma') \\
&=& \sum_{i,j=1}^2 g_{ij} \frac{dx_i}{dt} \frac{dx_j}{dt} \\
&=& \frac{(x')^2 + (y')^2}{y^2}
\end{eqnarray}
$x'=0$の場合と$x' \neq 0$の場合の計算をします。
$x'=0$の場合、$x$は定数$a$になります、
第2式は$y''-y=0$になるので$y = \exp(\pm t+b)$($b$は定数)になります。
$x' \neq0$の場合、$(x')^2 = -2(y')^2 + y^2$と$(y'/y)'=(y'' y-(y')^2)/y^2$を測地線の方程式の第2式に代入すれば(3.32)式を得ます。
(3.32)式と(3.34)式の計算は三角関数の公式を使うだけなので省略します。
以上より測地線がx軸上に中心を持つ円周の円弧になることが分かります。
3.2節を読む
この節では方向微分の全体がベクトル空間となることを示します。
そして方向微分を接ベクトルとみなし、方向微分の全体を接空間とみなすことができるようになります。
ベクトルを向きと大きさを持つ量として定義するのは不完全な定義で、正確なベクトルの定義は、座標変換に対して変換性$V_i = R^j_i V_j$を持つ量のことです。
スカラー、テンソルも座標変換に対する変換性で定義されます。
大きさや向きを持つイメージのない微分がベクトルとみなせるのは、この変換性を満たすからです。
本節の展開は以下のようになっています。
まず定義3.3で一般的なベクトル場を定義します。
そしてベクトル場の満たす性質を命題3.2に列挙しています。
次いで、方向微分を(3.39)式で定義します。
この方向微分がベクトルの性質を持つことを定理3.1で示し、これを接ベクトルとします。
接ベクトル全体からなる接空間も定めます。
ここでの計算は、(3.41)式の合成関数の微分が少し分かりにくいかもしれません。
$x_i$の関数である$f$の偏微分を取り、$\mathbf{p}$点の値を代入し、合成関数なので$f$の変数には$x_i=\gamma_i$が代入されるので、分母の$\partial x_i$に対して、分子に$\partial \gamma_i$が対応します。
次には方向微分でD上の$C^{\infty}$級ベクトル場を(3.45)式で定義し、これも定理3.2のベクトル空間の性質を満たすことを示します。
最後には交換子の定義とその性質を示します。
証明の計算は簡単なので説明は省略します。
3.3節を読む前に
3.3節でははめ込みである写像が単射である性質と次元定理を用いて、レビ-チビタ(Levi-Civita)接続を導出します。
これは私には馴染みの薄い導出方法で、理解が未だ十分ではありません。
本書での導出を見る前に、馴染みのある方法での導出をおさらいしておきたいと思います。
まず、ベクトル場と測地線の方程式は既に得られているとします。
測地線とは、曲線上に沿って平行移動するベクトル場が満たす方程式です。
詳細は省きますが、ベクトル場の共変微分を考え、アファイン接続を定義します。
ここで、Riemann多様体MとM上の滑らかな曲線$C = { p(t) ; a \leq t \leq b }$があったとします。
M上の点$p(a)$における接ベクトル$\mathbf{v}, \mathbf{w} \in T_p M$を、$C$に沿ってM上の点$p(b)$まで平行移動したものを$\mathbf{v}', \mathbf{w}'$とします。
平行移動に対して内積が不変になるならば、つまり$g_{p(a)}(\mathbf{v}, \mathbf{w}) = g_{p(b)}(\mathbf{v}', \mathbf{w}')$を満たすならば、Riemann多様体Mのアファイン接続をレビ-チビタ(Levi-Civita)接続と呼びます。
以上が、よくあるレビ-チビタ(Levi-Civita)接続の導出です。
多様体上での平行移動とは何かを定義し、一般的には曲率や捩率により曲線上の移動は経路に依存することを示し、その上で捩率が0になるレビ-チビタ(Levi-Civita)接続を考えます。
曲面の構造方程式から接続係数や共変微分を考え、アファイン接続を定義し、曲率と捩率を導出します。そしてRiemann計量を持つRiemann多様体において捩率が0を満たすアファイン接続をレビ-チビタ(Levi-Civita)接続と定義します。
それに比べて、本書は実に独特な導出をしています。
3.3節を読む
本節では、レビ-チビタ(Levi-Civita)接続を導出します。
P43の図2.5では写像の微分を考えました。
ここでも写像$\iota : D \to \mathbf{R}^n$の点$\mathbf{p}$における微分を考えます。
$X$は接ベクトル$T_{\mathbf{p}} D$の元で、図2.5の$\gamma'$のことです。
$\iota$は図2.5の$f$にあたり、$\iota * X$が図2.5の$(f \circ \gamma)'$になります。
よって(2.39)式の記号を上記の通りに置き換えれば(3.61)を得ます。
(3.46)で考えたベクトル場$Y$による関数$\iota * X$の微分を考えます。
(3.41)の$f$に$\iota * X$の成分を代入し、$\gamma'$に$Y$の成分を代入すれば、(3.63)が求まります。
命題2.3がそのまま適用できて、線形写像
\begin{eqnarray}
(d \iota)_{\mathbf{p}} : T_{\mathbf{p}} D \to T_{\iota(\mathbf{p})} \mathbf{R}^n
\end{eqnarray}
が単射ならば$\mathrm{Ker} (d \iota)_{\mathbf{p}}=0$になります。
ここで以下の次元定理を使用します。
命題2.2より$\dim T_{\mathbf{p}} D = \dim \mathbf{R}^m = m$です。
これらを次元定理
\begin{eqnarray}
\dim T_{\mathbf{p}} D = \dim \mathrm{Im} (d \iota)_{\mathbf{p}} + \dim \mathrm{Ker} (d \iota)_{\mathbf{p}}
\end{eqnarray}
に代入すれば(3.64)が求まります。
これにより$T_{\mathbf{p}} D$の元を$\mathrm{Im} (d \iota)_{\mathbf{p}}$の元とみなせます。
以上より任意のベクトル$\boldsymbol{x} \in \mathbf{R}^n$は、接ベクトル空間に等しい$\mathrm{Im} (d \iota)_{\mathbf{p}}$と、それに直行する直行補空間との直和空間に分解できることが分かりました。
(3.67)に出てくる第2基本形式については、以下の記事で簡単に説明しているのでご参照ください。
第1基本形式は、曲面の接ベクトルによる接平面に由来する量です。
第2基本形式は、3次元空間の法線ベクトルに由来する量です。
接ベクトルが$\mathbf{R}^n$の部分空間$\mathrm{Im} (d \iota)_{\mathbf{p}}$を考えると、それに直行する直行補空間は法線ベクトル方向の空間なので第2基本形式を定めます。
ベクトル場$Y$による関数$\iota * X$の微分が作る空間$\mathbf{R}^n$は(3.66)式の形式に直行和分解できるので、$\boldsymbol{x}_1$を(3.67)の第1式と定義し、$\boldsymbol{x}_2$を(3.67)の第2式と定義します。
リーマン幾何学は曲面の内的な量だけを用いるので、曲面の外である3次元空間の法線ベクトルに由来する$A$は排除したい量です。
本書では定理3.6の第2式を定めることで、定理3.5において第2基本形式が相殺されてなくなり、第2基本形式を曲面の性質とは無関係にしています。
本節の残りの計算は以下の不明点があり、まだ私は分かっていません。とりあえずは、結果を頭ごなしに正しいとみなして読み進めたいと思います。
不明点1:定理3.4の(4)
レビ-チビタ(Levi-Civita)接続が満たす性質は定理3.4です。
(1)から(3)の計算は簡単です。
少しだけ気になったことは第2基本形式$A$の項を、特に説明なく共変微分と分けていることでした。
つまり$\nabla_{Y+Z} X + A(X,Y+Z) = \nabla_{Y} X + A(X,Y) + \nabla_{Z} X + A(X,Z)$に対して、本書では$\nabla_{Y+Z} X = \nabla_{Y} X + \nabla_{Z} X$と$A(X,Y+Z) = A(X,Y) + A(X,Z)$としています。
ですが、もし$\nabla_{Y+Z} X = \nabla_{Y} X + \nabla_{Z} X + A(X,Y)$と$A(X,Y+Z) = A(X,Z)$に分けたとしても等号は成立します。
おそらくは$(3.66)$により任意のベクトルは接ベクトルと法線ベクトルに分離できるとしたので、共変微分$\nabla$の項と第2基本形式$A$の項は分離すべきということなのだと理解しています。
(4)については、(3.75)式において$X = \iota * X$になる理由が分かりませんでした。もしも
\begin{eqnarray}
\frac{\partial \iota_j}{\partial x_i} = \delta_{ij}
\end{eqnarray}
にできるのならば等しくなりますが、そうしていい理由が思いつきません。
不明点2:標準内積の定義と(3.78)
この節での標準内積の定義が私にはよく理解できませんでした。
実際に内積を計算しながら、私の不明点を説明します。
ベクトル場を
\begin{eqnarray}
X &=& \sum_{k=1}^m \xi^k \mathbf{e}^k \\
Y &=& \sum_{k=1}^m \eta^k \mathbf{e}^k
\end{eqnarray}
として、ベクトル場について$\iota$の微分を
\begin{eqnarray}
\iota * X &=& \sum_{k=1}^m \sum_{i=1}^n \xi^k \frac{\partial \iota_i}{\partial x_k} \mathbf{e}^i \\
\iota * Y &=& \sum_{k=1}^m \sum_{i=1}^n \eta^k \frac{\partial \iota_i}{\partial x_k} \mathbf{e}^i
\end{eqnarray}
とします。
$X$と$Y$の内積は、(2.34)のように計算すると
\begin{eqnarray}
g(X,Y) = \sum_{k,l=1}^m \xi^k \eta^l g(\mathbf{e}^k, \mathbf{e}^l) = \sum_{k,l=1}^m \xi^k \eta^l g_{kl}
\end{eqnarray}
になります。次に(2.40)と同様のヤコビアン
\begin{eqnarray}
J_{\iota(\cdot)}
&=&
\frac{\partial \iota_i}{\partial x_k}
\end{eqnarray}
を用いて、(2.57)のように、$\iota$による$g$の誘導計量を計算すると、ユークリッド計量$g_{ij}=\delta_{ij}$を用いて
\begin{eqnarray}
\iota * g(X,Y) &=& g_{\iota(\cdot)} (X J_{\iota(\cdot)}, Y J_{\iota(\cdot)} ) \\
&=&
g_{\iota(\cdot)} \Biggl(\sum_{k=1}^m \sum_{i=1}^n \xi^k \frac{\partial \iota_i}{\partial x_k} \mathbf{e}^i, \sum_{l=1}^m \sum_{j=1}^n \eta^l \frac{\partial \iota_j}{\partial x_l} \mathbf{e}^j \Biggl) \\
&=&
(\iota * X)_i (\iota * Y)_j \ g_{ij} = \langle \iota * X, \iota * Y \rangle
\end{eqnarray}
となります。
つまり(3.76)は$g(X,Y)$ではなく、$\iota * g(X,Y)$ではないかと私は疑問に思いました。
続く(3.78)式の計算も、標準内積の計算が分かりませんでした。
まず、(3.78)の途中計算では、接ベクトルと$A$が直交するので、その内積$\langle A, \iota * Z \rangle$が0になることを利用します。
最後の式展開で、(3.78)式において$\langle \nabla_X Y, \iota * Z \rangle = g(\nabla_X Y,Z)$になる理由が分かりませんでした。
(3.76)式に当てはめるために、$\langle \nabla_X Y, \iota * Z \rangle = \langle \iota * (\nabla_X Y), \iota * Z \rangle$とみなしていいのか疑問に思いました。
不明点3:(3.81)
(3.61)式と(3.62)式が(3.79)式と(3.80)式になるのは、おそらく単位ベクトル$ \mathbf{e}^i$を方向微分で表しているのでしょう。
これを用いて、(3.52)を(3.61)の$X$と置き換えれば(3.81)が計算できます。
ですが、(3.81)式において$[X,Y] = \iota * [X,Y]$になる理由が分かりませんでした。
不明点4:(3.87)
(3.79)に(3.84)を代入すれば(3.85)になります。
これを更に微分すれば、(3.85)の第1項は0になり、第2項の分子と分母に対する微分が2つの項に分かれます。
(3.86)の最終式を計算するのは簡単ですが、その解釈が私には分かりませんでした。
(3.86)を(3.66)のように共変微分$\nabla$の項と第2基本形式$A$の項に分離するとありましたが、共変微分$\nabla$の項が(3.87)になる理由が分かりませんでした。
以上の不明点については、答えが分かりましたら更新したく思います。
本節の残りの部分、定理3.7と定理3.8は簡単な計算なので特に疑問はありませんでした。
3.4節を読む
レビチビタ接続を一般化して共変微分とアファイン接続を定義し、捩率テンソル場も定義しています。
捩率テンソル場の性質、共変微分が捩じれを持たない条件の話が続きます。
次に双対空間が定義されます。
命題3.4では、ベクトル空間から双対空間への写像が線形同型写像であることを示します。
まず、内積の線形性より
\begin{eqnarray}
\iota (a \mathbf{v} + b \mathbf{v}')
&=& a \langle \mathbf{v}, \cdot \rangle + b \langle \mathbf{v}', \cdot \rangle
= a \iota (\mathbf{v}) + b \iota (\mathbf{v}')
\end{eqnarray}
となるので、$\iota$は線形写像です。
$\mathrm{Ker} \iota: V^* \to V$なので$\mathbf{v} \in \mathrm{Ker} \iota$として
\begin{eqnarray}
\mathrm{Ker} \iota
= (\iota^{-1}(\mathbf{v}))(0)
= \{ \mathbf{v} \in V | (\iota(\mathbf{v}))(\mathbf{v}) = 0 \}
\end{eqnarray}
なので(3.108)式のようになります。命題2.3より$\iota$は単射だと分かります。
(3.109)式と次元定理より$\iota$は全射だと分かります。
よつて$\iota$は全単射線形写像なので線形同型写像です。
次に定理3.4を満たす別のアファイン接続(3.111)が定義されます。
このアファイン接続が定義3.4を満たすことが簡単な計算で示されます。
次には$\alpha$接続を定義します。
まず、1.2節で考えた定義1.3のような、高々可算(有限集合かつ可算集合)な部分集合上の統計的モデル(3.120)を考えます。
2.5節では、統計的モデルのリーマン計量として、フィッシャー計量を考えました。このフィッシャー計量のレビチビタ接続を$\nabla$とします。
また(0,3)型テンソル(3.121)式を定めます。(0,3)型テンソルは、マルコフはめ込みに対して不変、つまり2つの同等な統計的モデル間の写像に対して不変であることを2.6節で示しています。
これらを用いて$\alpha$接続(3.123)式を定義します。
マルコフはめ込みに対して不変なリーマン計量(フィッシャー計量)と、マルコフはめ込みに対して不変な(0,3)型テンソルを用いて定義し直した統計的モデル空間のアファイン接続は$\alpha$接続と呼ばれます。
この$\alpha$接続も捩じれを持たないことを本節の最後で示しています。
まずフィッシャーの情報行列(2.124)式を確率関数の期待値として(3.124)式のように表現します。
次に$\alpha$接続に対するクリストッフェルの記号(3.125)式をこのフィッシャーの情報行列で表現します。
(3.124)式の微分は、対数の微分の公式
\begin{eqnarray}
(\log p)' = \frac{p'}{p}
\end{eqnarray}
を用いれば
\begin{eqnarray}
\partial_k r_{ij} &=& \partial_k \{ \sum_{k=0}^n (\partial_i \log p) (\partial_j \log p) p \} \\
&=& \sum_{k=0}^n (\partial_k \partial_i \log p) (\partial_j \log p) p
+ \sum_{k=0}^n (\partial_i \log p) (\partial_k \partial_j \log p) p
+ \sum_{k=0}^n (\partial_i \log p) (\partial_j \log p) \partial_k p \\
&=& \sum_{k=0}^n (\partial_k \partial_i \log p) (\partial_j \log p) p
+ \sum_{k=0}^n (\partial_i \log p) (\partial_k \partial_j \log p) p
+ \sum_{k=0}^n (\partial_i \log p) (\partial_j \log p) p \partial_k \log p
\end{eqnarray}
より、(3.126)式が求まります。
これを(3.125)式に代入すれば、クリストッフェルの記号を期待値を用いて(3.128)式のように表現できます。
(3.123)式の右辺第1項は(3.128)式、第2項は(3.121)式なので、$\alpha$接続に対するクリストッフェルの記号(3.129)式が求まります。
これは(3.130)式を満たすので、$\alpha$接続は捩じれを持たないことが示されました。
3.5節を読む
本節の計算も簡単なものしかありません。
$\alpha$接続の$\alpha = 0$の場合がレビチビタ接続になることは前節で示しましたが、本節では$\alpha = 1$の場合のe-接続と$\alpha = -1$の場合のm-接続を考えます。
本節は それらの接続を論じる前の準備として、曲率を定義し、その性質である「定理3.12」を証明し、具体的に曲率を(3.136)式で計算して、平坦とは何かを定義します。
e-接続とm-接続が平坦であることを示すので、その前に平坦とはそもそも何かを定義したいわけです。
(3.140)式の確率に従う統計的モデル$S$を指数型分布族と呼びます。この確率$p$の$\log p$を計算して、先ほどの$\alpha$接続のクリストッフェルの記号に代入すれば(3.156)式が求まります。
ここで$\alpha = 1$とすれば、曲率が0で、平坦なe-接続となります。
一連の計算は簡単ですが、(3.142)式がほんの少しだけ難しいかもしれません。
(3.141)式は1なので、その対数を取ると0になります。よって、以下の式展開で(3.142)式が求まります。
\begin{eqnarray}
\log \sum_x p = \log \sum_x \exp (C + \sum_i \theta_i F_i) - \log e^{\psi}
= \log \sum_x \exp (C + \sum_i \theta_i F_i) - \psi = 0
\end{eqnarray}
また、(3.148)式が(3.150)式になるのは、以下の計算を使います。
\begin{eqnarray}
e^{\theta_j} = \frac{\xi_j}{1- \sum_{k=1}^n \xi_k}
\end{eqnarray}
\begin{eqnarray}
\sum_{j=1}^n e^{\theta_j}
= \frac{\sum_{j=1}^n \xi_j}{1- \sum_{k=1}^n \xi_k}
\end{eqnarray}
\begin{eqnarray}
1 + \sum_{j=1}^n e^{\theta_j}
= \frac{1- \sum_{k=1}^n \xi_k + \sum_{j=1}^n \xi_j}{1- \sum_{k=1}^n \xi_k} = \frac{1}{1- \sum_{k=1}^n \xi_k}
\end{eqnarray}
\begin{eqnarray}
\log ( 1 + \sum_{j=1}^n e^{\theta_j} )
= \log \frac{1}{1- \sum_{k=1}^n \xi_k} = - \log (1- \sum_{k=1}^n \xi_k)
\end{eqnarray}
(3.159)式の確率に従う統計的モデル$S$を混合型分布族と呼びます。以降の話は指数型分布族と同じです。
『第4章 確率密度関数からなる統計的モデル』について
3章までの内容は本書以外に類書が少なく、説明が分からないと他に調べようがなくて頭を抱えてしまいましたが、本章以降のルベーグ積分、多様体は類書が無数にあるので、本書で不明点があれば それらの本を読んで調べることができます。
よってこれ以降は、本書に不明な点があれば、理解不足な私の本記事を参照するよりは、それらの本を読んだ方がいいと思います。
ここから先は、私が自分の為だけに書くメモに過ぎないとお考えください。
本章では有限な高々可算な部分集合上の統計的モデルを、無限な統計的モデルに拡張します。
無限での確率を扱うには測度論が必要になります。
そのため、本章では測度空間や可測関数について学習します。
本章を読むにあたっては、KS理工学選書の「測度・確率・ルベーグ積分 応用への最短コース」を参照しています。
4.1節を読む
集合が$\sigma$-加法族でも、その部分集合は必ずしも$\sigma$-加法族にはなりません。
例えば$2^{\Omega}$は$\sigma$-加法族になる部分集合です。
(4.1)式を満たす部分集合は、命題4.1で$\sigma$-加法族であることが示されます。
ここで唐突にボレル集合族が定義されます。
この定義の仕方ですと開集合だけしか扱えないように見えますが、以下のように閉区間を開区間で表すことで、閉区間もボレル集合とみなせます。
\begin{eqnarray}
[a,b] &=& \cap_{n=1}^{\infty} \Biggl( a - \frac{1}{n}, b + \frac{1}{n} \Biggl)
\end{eqnarray}
本節では以下の手順で$\mathbf{R}$のルベーグ測度を定めています。
- (4.2)式から(4.9)式にかけて、$\mathbf{R}$のルベーグ外測度を定義します。これは$\sigma$-加法的ではないので、測度とは言えません。
- この外測度が定理4.1の性質を持っていることを確認します。
- 定義4.3により、カラテオドリ条件を満たすルベーグ可測$A$を定義します。
- ルベーグ可測$A$を(4.12)式で制限した$\lambda$が$\sigma$-加法的であることを示します。そして、これが$\mathbf{R}$のルベーグ測度になります。
先ほどのボレル集合族のルベーグ測度を完備化したものは、このルベーグ測度と一致します。
ちなみに、ボレル集合族の測度空間は可測ではないので完備ではありません。部分集合を追加することで、測度空間を完備化にすることができます。
詳細は「測度・確率・ルベーグ積分」の1章をご参照ください。
4.2節を読む
本節では、ルベーグ測度に関して可積分な可測関数について説明を行います。
それらの概要が紹介されるだけなので、ルベーグ積分を初めて勉強する人は、本節については他の本を参照した方がいいかもしれません。
まずは、可測関数の定義を行い、命題4.2を示します。
ボレル可測関数、ルベーグ可測関数、定義関数、単関数が定義されます。
続いて定理4.3の(4.25)式について、本節は説明が少し不足していると思いました。
積分を初めて習った時、縦方向の細かい短冊に分割して、短冊の面積の和を求めるのが積分の原理だと教わったと思います。
ですが、今回は、横方向の細かい短冊に分割します。
縦軸の値域を0以上n未満とn以上無限未満に分けます。そしてn未満の値域を$n2^n$個の横方向の短冊に分割します。1つの短冊の高さは$1/2^n$です。
(4.25)式の第1項は この横方向に分割した短冊の和であり、第2項はn以上無限未満の領域を意味します。
(4.25)式は可測関数である単関数の線形結合なので可測関数です。また、非負な単調増加関数の和なので、短冊を細かくするほど近似精度がよくなり$f$に近づきます。$f_n<f$なので$f$に近づくほど値が大きくなるので、$f_{n+1}$が必ず$f_n$より大きくなります。
$n \to \infty$ならば(4.25)式の1項目の単関数は0になり、2項目の単関数は1になるので$f_n = n$となり、(4.26)式になります。
次に$f(x)<n$ならば、(4.25)式の第1項のみが残り、2項目の単関数は0になります。よって$f$が横方向の短冊の高さより$f_n$を上回ることはないので、$f - f_n < 1/2^n$となります。
これより(4.27)式が求まります。
この後は、定義と定理が続くだけなので、読んで覚えるだけでいいと思います。
4.3節を読む
条件付き期待値はラドン-ニコディムの定理と同等です。
備考
- 0回目 1.1節から1.2節まで
- 1回目 1.3節から2.1節P37まで(仕事のため欠席)
- 2回目 2.1節P37から2.3節P50まで
- 3回目 2.3節P50から2.4節まで
- 4回目 2.5節から2.6節まで
- 5回目 3.1節から3.2節P85まで(私用のため欠席)
- 6回目 3.2節から3.3節P94まで