確率・統計を勉強しはじめてまず一番目につまずくのは「条件付き確率」とは何かということではないかと思います。web上を探しても意外と定義の説明の域を出ず、イメージや実際の問題の解き方を解説した記事は少ないように思いましたので、私なりの条件付き確率のイメージを紹介したいと思います。
条件付き確率とは「事象$A$が起こったという条件のもとで事象$B$が起きる確率」のことです。
一方、たとえば結合確率とは「事象$A$が起こり、かつ事象$B$が起きる確率」のことです。
私はこの説明を最初に見たとき、「どっちも一緒じゃん!」と思いました。
これらは通常異なる値を取り、その関係はベイスの定理によって示されます。
ふつうの確率と条件付き確率の違い
ただ、順を追って説明していくために、まずは「事象$A$が起こる確率」と「事象$B$が起こったという条件のもとで事象$A$が起こる確率」の違い、すなわち「$P(A)$」と「$P(A|B)$」の違いについて説明していきたいと思います。
全事象を$U$とします。つまり、$U$とは注目している現象に対して起こりうるあらゆる状況を表しています。注目しているのがサイコロの目だとしたら、$U=[1,2,3,4,5,6]$というようなカンジです。
それに対して、事象$A$はその中の一部なので、次のような図でその関係が表せます。
$P(A)$とは、あえて言葉に直すなら「$U$の面積のうち、$A$が占める割合」ということです。
$A$が空集合であれば確率は0ですし、$A$と$U$が全く同じ事象を表すとしたら$P(A)=1$になります。
さて、ここまでは大丈夫だと思うのですが、ここからが重要です。以下に事象$A$、事象$B$、全事象の関係の一例を示します。
「事象$B$が起こったという条件のもとで事象$A$が起きる確率」なんて言うと分かりにくいですが、$P(A|B)$とはつまり、「$B$の面積のうち、$A$が占める割合」という意味です。
この考え方を$P(A)$の場合に適用してやると、
$P(A)$=「$U$の面積のうち、$A$が占める割合」=$P(A|U)$というように恣意的に書くこともできます。
ここまでをまとめると、
「事象$A$が起こる確率」=「全事象を表す四角の面積のうち、事象$A$の円が占める面積」=$P(A|U)$
「事象$B$が起こったという条件のもとで事象$A$が起こる確率」=「事象$B$の円の面積のうち、事象$A$の円が占める面積」=$P(A|B)$
ということになり、普通の確率と条件付き確率の違いとは「『何に対して』事象$A$はどの程度起こるか」という違いがあるといえます。
結合確率と条件付き確率の違い
結合確率$P(A\land B)$にも先ほど考え方を適用してやると、
$P(A\land B)$=「$U$の面積のうち、$A$と$B$の重なった部分が占める割合」=$P(A\land B|U)$と言うことができ、「事象$B$の円の面積のうち、事象$A$の円が占める面積」=$P(A|B)$とは異なる現象を指していることが分かるかと思います。
ベイズの定理によると、
$P(B)P(A|B)=P(A,B)$という等式が成り立ちます。
右辺に関しては、ご存知の通り$A$と$B$が同時に実現する確率を表します。
左辺に関しては少々解釈が必要で、$P(A|B)$という$P(A\land B)$よりも大きい値に対して、$P(B)$という重りをペナルティとして掛けているとみることができます。
具体例を挙げると、上の図のように$A$が$B$の部分集合になっている場合で、$P(U)=1,P(A)=\frac{1}{4},P(B)=\frac{1}{2}$とします。
計算すると、$P(A\land B)=P(A)=\frac{1}{4}$、$P(A|B)=\frac{P(A)}{P(B)}=\frac{1/4}{1/2}=\frac{1}{2}$となります。
$P(A|B)$というちょっと大きい値に対して$P(B)$という重りを掛けると、たしかに$P(A\land B)$と一致することがわかります。
ごちゃごちゃ書きましたが、まとめると結合確率$P(A,B)$と条件付き確率$P(A|B)$はベイズの定理でその関係が示されていはいるものの、基本的には全くベツモノということです。
練習問題
(稲垣、山根、吉田『統計学入門』より引用させて頂いております)
予報が雨で、実際も雨:35
予報が晴れだが、実際は雨:8
予報は雨だが、実際は晴れ:5
予報は晴れで、実際も晴れ:40
というような状況があります(その地域には雨か晴れのみで、雪や曇りは存在しません)。
このとき
(1)予報が雨で、実際にも雨だった確率
(2)予報が雨だったという条件の上で、実際にも雨だった確率
(3)実際に雨であり、その日は予報でも雨であった確率
を求めましょう。
この手の問題を解くときに、以下のような図を書くと確率⇔面積のイメージ付けができて、楽に解けるようになると思います。
(1)解答
「すべての予報のうち、予報が雨であり実際も雨であった」のような確率を求めれば良いので、
\frac{35}{35+8+5+40} = \frac{35}{88}
がその答えになります。
(2)解答
こちらは「予報した」回数に対して「実際も雨であった」回数の割合を計算するわけではなく、
「予報が雨であった」という回数に対して「実際も雨であった」という回数の割合を計算したらよいので、
\frac{35}{35+5} = \frac{7}{8}
が答えになります。
(3)解答
「いや、予報のほうが先に出てるんだから『実際は雨であり、その日は予報でも雨であった』なんて意味わかんないよ!」
と思う方もいるかもしれません(私もそうでした)。
この手のパターンは工場の不良品の確率を求める問題も多いかもしれません。たとえば、「あるパーツが不良品であったとき、それが工場Aで作られた確率を求めよ」など…。
ただ、やることは同じです。
「実際は雨であった」という回数に対して「予報も雨であった」という回数の割合を計算したらよいので、
\frac{35}{35+8} = \frac{35}{43}
が答えになります。
まとめ
条件付き確率とは「ある条件」の面積に対して求めたい事象の面積の占める割合を求めたものです。
ふつうの確率は、書いてはいませんが、「すべての条件(=全事象)」の面積に対して求めたい事象の面積の占める割合を求めたものです。
それを考えると、「条件付き確率」というネーミングもしっくりくるかもしれません。