早いもので僕が数理物理学のポスドクをやめて企業に入ってから一年が経ちました.それは僕が機械学習の勉強を始めてから約一年が立ったということ.去年の今ころに比べれば,少しは機械学習,統計学周辺の知識も増え理解も進んでいると思いたいですが...
ちょうど一年の節目でもあるので,普段なんとなく考えたことや勉強したことを少しでも書き残して行きたいと思うようになりました.といっても,「多くの人に役に立つすぐれた記事を書こう!」などと構えてしまうといつまで立っても書き始められなそうなので,まずは内容よりも書き続けることを優先に少しでも書けるように頑張ってみたいと思います.後で読んだら恥ずかしくなってしまうようなものでも,気にせずにどんどん書いてしまいたいと思います(汗).
今回は,条件付き期待値について書いてみます.機械学習はとても広範囲な分野と関係しているので,機械学習関連の本の著者の方のバックグラウンドは極めて多岐にわたり,そこで扱われる数学の粒度も流儀もかなり多様で様々だなあというのが僕の個人的印象でした.現代数学の本の読んでいると,数学自体は難しくてもこういう心配はまったくない(どんな本もすべて現代数学のお作法で書かれている)ので,そのお作法に慣れるまではかなーり大変でも,一旦慣れると,その後はむしろ数学以外の分野の「数学的」記述がとても読みにくく感じてしまうようになる人が多いのではないでしょうか.それが原因で僕も混乱することが結構ありました(し,今でもよくあります).機械学習を勉強していくのにこんなことではとても困るので,これに対処しなければいけないのですが,そのためには,2つの対応があると思います.
- 1つめの対応.出てきた内容を現代数学の言葉に翻訳する.
- 2つめの対応.現代数学の文脈ではどういう意味なのかをとりあえず気にせず,それはそれとして理解する.
すべてに対して1つめの対応をするのは非現実的ですが(もちろん僕には非現実的,という意味です.この手のことがすらすらできる人もきっといらっしゃると思います.羨ましい限り.),たまにはやらないと,僕はどうしても自分の中の理解が浅いと感じてしまいます.そこで,条件付き期待値に対して1つめの対応をやろうというのが今回の記事のテーマです.実際には僕は2つめの対応で多くの場合やり過ごしますが,数学プロパーでずっとやっていて,他の自然科学の分野の本をあまり読んだことのない方にはこれは相当抵抗があると推測します.僕は物理学科出身なのでこの手の現代数学のお作法に従わない数学的議論に対する抵抗は少ない方だと思うのですが,それでも現代数学の本にある程度慣れた今では,物理の本が昔に比べるととても読みにくく感じる場合もあるのが正直なところでもあります.
条件付き期待値は,現代数学の一分野としての確率論の中できちんと定義できる概念ですが,この定義は測度論に基づいているため数学数学した本以外ではめったに見ません.そこで,数学の本以外でよく見る定義と標準的な現代数学の定義の関連を見ておきたいわけです.以下では素朴な定義と標準的な定義を両方与えてそれらの関連を議論しますが,測度論的確率論については既知としてしまいます.「現代数学のお作法に従っていない数学の議論はわけわからんし読む気がしない!」という方のご参考に少しでもなれば...機械学習とは直接関係はないですが.
では早速測度論での標準的な定義から.$(\Omega, \mathcal{F}, P)$を確率空間とします.$X$をこの上の可積分な実数値確率変数
$$ X :\Omega\to\mathbb{R} $$
とし,$\mathcal{G}$を$\mathcal{F}$の部分$\sigma$加法族とします.このとき,一般には,$X$は$\mathcal{G}$可測とは限らないので,$(\Omega,\mathcal{G},P)$上の確率変数にはなりません.そこで,$(\Omega,\mathcal{G},P)$上の確率変数$Y$で,「$X$において,$\mathcal{G}$だけの情報ではわからない部分を平均してしまったもの」を探したい.これが$X$の条件付き期待値と呼ばれる確率変数です.大雑把には,$\mathcal{G}$可測な関数$Y$とは,$\omega\in\Omega$が$\mathcal{G}$の各要素に含まれているかどうかさえ知れば$\omega$での値$Y(\omega)$を知ることができる関数のことですから,こうした$Y$が見つかれば,
それは$\mathcal{G}$のみの情報から推測した,$X$の値についてのbest guessになっていると期待できます.これをきちんと定義すると以下のようになります.
$A\in\mathcal{G}$に対して,
$$ \mu(A) := \int_A X(\omega),dP(\omega) $$
とおくと,$X\in L^1(\Omega,\mathcal{F},P)$だったので,$\mu$は可測空間$(\Omega,\mathcal{G})$上の有界な測度で,しかも
$P$(を$\mathcal{G}$に制限したもの)に対して絶対連続になっています.ゆえにRadon-Nikodymの定理から,$\mathcal{G}$可測関数$Y$で
$$ \mu(A) = \int_A Y(\omega),dP(\omega) $$
となるようなものが唯一つ($P$-a.s.で一致するものは同じとして)存在します.この$Y$を$X$の$\mathcal{G}$のもとでの条件付き期待値といい,普通は
$$ Y = \mathbb{E}[X|\mathcal{G}] $$
と書きます.定義から,$\mathbb{E}[X|\mathcal{G}]$は「$\mathcal{G}$可測な集合上での期待値は$X$と一致し,しかも$\mathcal{G}$可測な関数」になっています.
さて,一方で,条件付き期待値のよく見る素朴な書き方は以下のようなものです.確率変数$X$と$W$があるとき,それらの同時密度関数を$f(x,w)$とし,$X$と$W$の密度関数をそれぞれ$f_X(x)$,$f_W(w)$とします.ここで,$f_W(w)>0$と仮定しておきます.このもとで,「$W=w$と指定したときの条件付き密度関数」$f_{X|W}(x|w)$を
$$ f_{X|W}(x|w) := \frac{f(x,w)}{f_W(w)} = \frac{f(x,w)}{\int_\mathbb{R} f(x,w),dx} $$
で定義します.もちろん,こう書くからには$W$の分布がLebesgue測度について絶対連続であることを暗黙に仮定しているわけですから,「$W=w$である確率」$P(W=w)$はゼロになるのですが,これを密度関数$f_W(w)$で代用して上のように素朴に定義するわけですね.しかし,おそらくこれはmathematical mindedな方にはあまり気持ちの良くない定義なのではないでしょうか.使える数学的状況があまりに限定的ですし,この流儀で行くと分布が離散的なときは別途定義しなければならなくなります.離散の場合は確率関数を使って同様の定義をすれば良いわけで,その気持ちも十分にわかるのですが,やはり釈然としない.もっと一般の,絶対連続な部分,特異連続な部分,離散的な部分が全部あるような分布だったらどうするんだ??などの疑問が湧いてきて...うーん...そんな印象だと思います.もちろん,上で与えた測度論の標準的な条件付き期待値はこんな不便な制限はありません.そこで,上の一般的定義がここでの素朴な定義をきちんと含んでいることを確かめておきたい.これが確かめられれば一安心(?)です.
では,再び測度論の設定に戻ります.確率変数$W$を可測にする最小の完全加法族を$\sigma[W]$と書きます.さらに$X$の$\sigma[W]$のもとでの条件付き期待値$\mathbb{E}[X|\sigma[W]]$を,$\mathbb{E}[X|W]$と書くことにします.ここから,上で述べた素朴な設定の場合とつなげていきます.まず,$X,W$の同時分布がLegesgue測度に対して絶対連続であるとし,そのRadon-Nikodym導関数を$f(x,w)$とします:
$$ P((X,W) \in B) = \int_{B} dx,dw, f(x,w). $$
このとき,$\mathbb{R}\times K$のかたちの$\mathbb{R}^2$の可測集合に対して上の式を使うと,$f$の可積分性から
$$ P(W\in K) = \int_\mathbb{R} dx \int_K dw ,f(x,w) = \int_K dw\left(\int_\mathbb{R} ,dx, f(x,w)\right). $$
これは,$W$の分布がLegesgue測度について絶対連続でRadon-Nikodym導関数が$\int_\mathbb{R} ,dx, f(x,w)$にほとんどすべての$w\in\mathbb{R}$で等しいことを意味します.ゆえに,$W$の密度関数の表示
$$f_W(w) = \int_\mathbb{R} ,dx, f(x,w) $$
が得られます.ここで,この$f_W$が$f_W(w)>0$を満たす場合を考え,その場合に,
$$ f_{X|W}(x|w) := \frac{f(x,w)}{f_W(w)} $$
と定義することにします.このとき,次の式が成立します:
$$ \mathbb{E}[X|W] = \int_\mathbb{R} xf_{X|W}(x|W),dx. $$
これで,測度論に基づいた条件付き期待値(左辺)と,素朴に定義された「条件付き確率密度関数」(右辺)が自然な形で結びつきました.
長くなってきましたので今回はこのへんで.次回以降に続きます.