ベイズの定理を解説した本は沢山あるのですが、確率変数が離散型のときだけだったりするので、連続型も少しまとめようと思い記事にしました。
※この記事では確率空間や確率変数をざっくりとでも知っていることを前提としております。抽象的な積分論の知識は不要です。
条件付き確率
事象$B$が起こる条件のもとで事象$A$が起こる条件付き確率の定義
$$
P(A|B)=\frac{P(A\cap B)}{P(B)} (※P(B)>0)
$$
これは$A$と$B$が同時に起こる確率に対して$P(B)$で割ることによって、$B$を全事象と考え直したときの状況下で相対的に$A$が起こる確率を表しています。
ベイズの定理(離散型の場合)
$P(A)>0$の条件を追加すれば、上記同様に
$$
P(B|A)=\frac{P(A\cap B)}{P(A)} (※P(A)>0)
$$
が成立するので、2つ式を合わせると
$$
P(A|B)P(B)=P(B|A)P(A)\
$$
両辺を$P(B)$で割るとベイズの定理が導けます。
$$
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
$$
右辺には$A$のもとで$B$が起こる確率がありますが、これから計算することでその逆の、$B$のもとで$A$が起こる確率が算出されます。
確率変数
確率空間$(\Omega,F,P)$上の確率変数$X,Y$があり、$Y$は離散型確率変数(つまり、1点をとる確率は0でない)とします。それらがとる値の集合$\{X \in C\}$と$\{Y=y\}$も事象になるため、上記$A,B$にそれぞれ当てはめてみると、次のように表現できます。
$$
P(X \in C|Y=y)=\frac{P(Y=y|X \in C)P(X \in C)}{P(Y=y)}
$$
確率変数(Yが連続型の場合)
確率変数$X,Y$が同時密度関数$f(・,・)$をもつ連続型、$Y$の周辺密度関数を$f_{Y}(・)$とします。
上で離散型の条件付き確率を書きましたが、連続型で同じように$Y=y$でやろうとすると、連続型の1点をとる確率は$0$なので、分母が$0$になってしまって定義ができません。そこで次のように条件付き確率を定めなおします。
$$
P(X \in C|Y=y):=\lim_{\delta → +0}P(X \in C|y ≦ Y < y+ \delta)
$$
これなら$\lim$を取る前の右辺の分母は0にならず定義できます。ここから式変形を進めていきます。最後に微分をするため、$\{X \in C\}$を$\{X≦x\}$に限定して考えることにします。
$$P(X ≦x|y ≦ Y < y+ \delta)=\frac{P(X ≦x, y ≦ Y < y+ \delta)}{P(y ≦ Y < y+ \delta)}=\frac{\int_{y}^{y+ \delta}\int_{-∞}^{x}f(s,t)dsdt}{\int_{y}^{y+ \delta}f_{Y}(s)ds}$$
分子分母を$\delta$で割り$\delta→0$とすれば、「微分積分学の基本定理」より
$$
P(X ≦x|Y=y)=\frac{\int_{-∞}^{x}f(s,y)ds}{f_{Y}(y)}
$$
となります。さらに$F(x)=P(X ≦x|Y=y)$とおき、上記式の両辺を$x$で微分すると
$$
F^{'}(x)=\frac{f(x,y)}{f_{Y}(y)}
$$
の形になります。ここで右辺をみていきます。逆に$x$に関して$∞$までで積分すると
$$
\frac{1}{f_{Y}(y)}\int_{-∞}^{∞}f(s,y)ds=\frac{1}{f_{Y}(y)}f_Y{(y)}=1
$$
になり、また$F^{'}(x)≧0$であることは明らかです。よって$F^{'}(x)$は$X$の$Y=y$で条件を付けた分布$P(X ≦x|Y=y)$の密度関数になっています。この密度関数を$f_{X|Y}(x|y)$と書けば
$$
f_{X|Y}(x|y)=\frac{f(x,y)}{f_{Y}(y)}
$$
と表せることになります。これが条件付き密度関数です。
※ちなみに、$\{X≦x\}$と限定的な集合で考えましたが、この表現で完全に分布が決まることが知られていますので、理論的にも問題ありません。
ベイズの定理(連続型の場合)
$X$と$Y$を逆にしたもので考えれば
$$f_{Y|X}(y|x)=\frac{f(x,y)}{f_{X}(x)}$$
となるので、上記式と組み合わせれば
$$
f_{X|Y}(x|y)=\frac{f_{Y|X}(y|x)・f_{X}(x)}{f_{Y}(y)}
$$
が成立します。この結果もベイズの定理といいます。