#はじめに
JDLA E資格試験で出題されるベイズの定理について解説した記事です。
E資格試験の応用数学パートでは、条件付き確率の定義やベイズの定理が出題されます。
また、ベイズの定理は機械学習・深層学習全般の生成モデルなどで使用されるため、本稿の内容を理解しておくのは必須です。
なお、他パートの具体的な解説については、下記をご覧ください。
[E資格試験に関する私の投稿記事リスト][link-1]
[link-1]:https://qiita.com/fridericusgauss/items/5a97f2645cdcefe15ce0
###目次
###数学表記
$\mathbb{R}$は実数集合です。$\Omega$は確率変数$X$が取り得る標本空間を表します。
確率や確率分布の諸定義については、下記をご覧ください。
[期待値・分散][link-2]
[確率分布][link-3]
[link-2]:https://qiita.com/fridericusgauss/items/ab36d7cf91093d284ba0
[link-3]:https://qiita.com/fridericusgauss/items/14bbcdc0423fc39067c2
#同時確率
同時確率とは、複数の事象が同時に発生する確率__です。事象$A,B$が同時に発生する同時確率を$P(A,B)$と表記します。
例えば、二つのサイコロ(サイコロ1、サイコロB)を振る試行を考えます。サイコロ1の目、サイコロ2の目をそれぞれ確率変数$X{1}, X{2}\in \{1,2,3,4,5,6\}$とします。サイコロ1の目が$a$、サイコロ2の目が$b$となる同時確率は、$P(X_{1}=a,X_{2}=b)$と表されます。
また、事象同士が互いに独立であるとは、__各事象同士が結果に影響を及ぼさない状態__を指します。上の例の場合、サイコロ1の目とサイコロ2の目は互いに影響を及ぼさないため、互いに独立です。
__事象同士が互いに独立な場合、その同時確率は各事象の確率の積で表すことが可能__です。つまり、事象$A,B$が互いに独立なとき、その同時確率$P(A,B)$は式(1)で表せます。
P(A,B) = P(A)P(B)
\tag{1}
上の例の場合、サイコロ1の目とサイコロ2の目は互いに独立なので、同時確率$P(X_{1}=a, X_{2}=b)$は下記のように表せます。
P(X_{1}=a, X_{2}=b) = P(X_{1}=a)P(X_{2}=b)
#条件付き確率
条件付き確率とは、__ある事象が発生することを前提とした状態で、別の事象が発生する確率__です。事象$A$における事象$B$の条件付き確率(条件$A$の下での$B$が発生する確率)を$P(B|A)$と表記します。このとき、事象$A$が条件(あるいは原因)で、事象$B$は結果となります。条件付き確率$P(B|A)$は式(2)で定義されます。
P(B|A) = \frac{P(A,B)}{P(A)}
\tag{2}
例えば、雨が降ったときに交通事故が起こる確率を考えます。雨が降るという事象が条件で、交通事故が発生するという事象を結果として捉えることができます。なお、雨が降るとき、道路が滑りやすくなったり、視界が悪くなるため、交通事故が発生しやすい状況の一つと考えられるため、__これらの事象には因果関係があり、独立ではない__と考えられます。
この__条件付き__については、「場合の数」で考えると、よりわかりやすいです。
合計10名のクラスにグループAとグループBが存在しており、クラスの中の数人が、グループAあるいはグループBに所属している状況を想定します。このとき、1名をランダムで抽出したとき、その人がグループに所属している確率を考えます。Aに属する人数が3人、Bに属する人数が4人、AとBの両方に属する人数が2人、AとBのどちらでもない人数が2人とします。
Aに所属している確率は$P(A)=3/10$、Bに所属している確率は$P(B)=4/10$、AとBに所属している確率は$P(A,B)=2/10$です。ここで、各確率の分母は全員10人としています。なぜなら、__全員10人から1人を抽出することを前提としており、一部の人に限定するような条件を課していない__ためです。
一方、所属Bの人がAに属する確率は$P(A|B)=2/4$です。この確率の分母はグループBに所属する4人です。なぜなら、__グループBから1人を抽出することを前提としている__ためです。
このように、「条件」が付いた場合、前提条件である単独の事象が発生する場合の量で割る必要があることがわかります。
実際に式(2)を用いると、条件付き確率は$P(A|B)=P(A,B)/P(A)=(2/10)/(4/10)=2/4$となり、場合の数から考えた場合の値と一致します。
また、式(2)を利用すると、同時確率$P(A,B)$は式(3)で表せます。
P(A,B) = P(B|A)P(A) = P(A|B)P(B)
\tag{3}
これは、同時確率は、事象$A$の確率$P(A)$と、事象$A$の発生を前提条件とした事象$B$の確率$P(B|A)$が同時に発生したときの確率と考えられるため、積の法則から式(3)と表したものです。$A$と$B$を交換しても成立します。
#ベイズの定理
###定義
ベイズの定理は条件付き確率に関する定理です。ベイズの定理は式(4)で表されます。$A$と$B$を交換しても成立します。
P(B|A) = \frac{P(A|B)P(B)}{P(A)}
\tag{4}
式(4)は、条件付き確率$P(B|A)$(式(2))に、同時確率$P(A,B)$(式(3))を代入すると下記のように導出可能です。
P(B|A) = \frac{P(A,B)}{P(A)} = \frac{P(A|B)P(B)}{P(A)}
よりわかりやすい解説は下記を参考にしてください。
[ベイズの定理][link-4]
いくつかの袋の中に赤い玉と白い玉がいくつか入っています。これらの袋のうちどれか1つの袋から、いくつかの玉を取り出したとします。この取り出された玉の色(結果)から、どの袋から取り出されたものか(原因)を推定することを考えます。ここで用いるのが「ベイズの定理」です。...
[link-4]:https://bellcurve.jp/statistics/course/6444.html
応用としてはベイズ推定などがあります。ガウス過程などを扱うときに非常に重要な考えであり、一般の統計モデルにおいても利用されていますが、E資格試験ではほぼ扱われないため、ベイズ推定の解説は割愛します。
###ベイズ定理の適用
よくある出題例として、下記の薬と疾患感染の関係を扱う問題があります。
母集団に属する人が疾患$X$に羅患している確率を$0.01$とする。検査薬$Y$は、疾患$X$の羅患者に適用した場合に確率$0.9$で陽性を示し、疾患$X$の非羅患者に適用した場合に確率$0.1$で陽性を示すことが知られている。母集団に属する人のうち、ある1名$Z$に対して検査薬$Y$を適用したところ、陽性を示した。このとき、$Z$が疾患$X$に羅患している確率を求めよ。
[問題引用先のE資格対策問題集][link-5]
[link-5]:https://book.impress.co.jp/books/1118101176#_pt_link=https://www*_*google*_*com_s_fNt4ntIGLXDzQ0eNht9edg.0.432gKbjDvQ4l8l2WtUkm2A.1613911842640.5.1_s_1f5448ba.tdy/zrfxq48kMeUCPbIELg.y0f8gJQwzhIpd5kLRC/ixg.3.1.1613911842713
まず情報を整理します。
$Z$の疾患$X$への羅患状態に対応する確率変数を$X \in \{x_{羅患}, x_{非羅患}\}$、$Z$の検査薬$Y$の結果に対応する確率変数を$Y \in \{y_{陽性}, y_{陰性}\}$と表記します。
また、$P(X=x_{i})=P(x_{i}),P(Y=y_{i})=P(y_{i})$と表記します。
この表記と問題文の数値を下記表の通り整理できます。赤字が求めたい確率です。
|条件付き確率|$x_{羅患}$|条件付き確率|$x_{非羅患}$|
|:---:|:---:|:---:|:---:|:---:|:---:|
|$P(x_{羅患})$|$0.01$|$P(x_{非羅患})$|$0.99$|
|$P(x_{羅患}|y_{陽性})$|$-$|$P(x_{非羅患}|y_{陽性})$|$-$|
|$P(x_{羅患}|y_{陰性})$|$-$|$P(x_{非羅患}|y_{陰性})$|$-$|
条件付き確率 | $y_{陽性}$ | 同時確率 | $y_{陽性}$ |
---|---|---|---|
$P(y_{陽性})$ | $-$ | $P(y_{陽性})$ | $-$ |
$P(y_{陽性}|x_{羅患})$ | $0.9$ | $P(x_{羅患},y_{陽性})$ | $-$ |
$P(y_{陽性}|x_{非羅患})$ | $0.1$ | $P(x_{非羅患},y_{陽性})$ | $-$ |
$P(x_{羅患},y_{陽性})$と$P(x_{非羅患},y_{陽性})$は式(3)から下記のように計算できます。
\begin{align}
P(x_{羅患},y_{陽性})=&P(y_{陽性}|x_{羅患})P(x_{羅患})
=0.9\times 0.01 = 0.009\\
P(x_{非羅患},y_{陽性})=&P(y_{陽性}|x_{非羅患})P(x_{非羅患})
=0.1\times 0.99 = 0.099
\end{align}
$P(y_{陽性})$は$y_{陽性}$と各$x_{i}$の同時確率の和なので、下記のように計算できます。
\begin{align}
P(y_{陽性})=P(x_{羅患},y_{陽性})+P(x_{非羅患},y_{陽性})
=0.009+0.099=0.108
\end{align}
よって、求めたい$P(x_{羅患}|y_{陽性})$はベイズの定理から、下記のように求められます。
P(x_{羅患}|y_{陽性})=\frac{P(x_{羅患},y_{陽性})}{P(y_{陽性})}=\frac{0.009}{0.108}\approx 0.083
#おわりに
E資格向けのベイズの定理について解説しました。
なお、上記は、2021年2月時点における内容であることにご注意ください。
[E資格試験に関する私の投稿記事リスト][link-1]