はじめに
今回は確率を網羅的にまとめてみようと思います。確率って、難しいですよね。「あの公式ってなんだっけ!」「この場合」ってどの公式使うんだっけ…」あなたもこのような経験はあると思います。そんな時、辞書のようにこの記事を活用していただければと思います!
確率(Probability)
確率($p$)とはとある現象の起こりやすさを表した数値であり、以下の公理を満たすものを指します。
[1] 0以上1以下である $0\leq p \leq 1$
[2] 起こりうる全現象($S$)の確率の和は1になる $\sum p(S) = 1$
[3] 現象$s_1$と$s_2$が排反(同時に起きない)場合、現象$s_1$または$s_2$が起こる確率は、それらの確率の和になる $p(s_1 \cup s_2) = p(s_1) + p(s_2)$
例にサイコロを例にあげると、
[1]「3」が出る確率は $\frac{1}{6} \quad (0\leq p(3) \leq 1)$
[2]$\; p(1)+p(2)+p(3)+p(4)+p(5)+p(6)=1$ [2]
[3]$\;p(1 \cup 2) = p(1) + p(2) = \frac{2}{6} = \frac{1}{3}$ [3]
乗法定理(Multiplication Theorem)
2つの事象が同時に起きる時、つまりANDの条件下での確率を算出する方法には乗法定理というものが使われます。例えば「2つのサイコロを同時に振って両方6が出る確率($p(6,6)$)」は以下の式で計算できます。
$$
p(6,6) = p(6)\centerdot p(6) = \frac{1}{6} \centerdot \frac{1}{6} = \frac{1}{36}
$$
加法定理(Addition Theorem)
2つの事象がのどちらかが起きる確率、つまりのOR条件下での確率を算出する方法には加法定理というものが使われます。例えば「2つのサイコロを同時に振って6が出る確率($p(6\ OR\ 6)$)」は以下の式で計算できます。
$$
p(6\ OR\ 6) = p(6)+p(6)-p(6,6) = \frac{1}{6} + \frac{1}{6} - \frac{1}{36}
= \frac{11}{36}
$$
順列と組み合わせ
順列(Permutation)
n個のものをk個取り出して順番に並べる事。
よくある「1~4と書かれたカードから3枚選び、3桁の整数を作るには何通り考えられるか?」という問題です。
式は
$$
{}_n \mathrm{P}_k = \dfrac{n!}{(n-k)!}
$$
$$
{}_4 \mathrm{P}_3 = \dfrac{4!}{(4-3)!} = \dfrac{4\centerdot3\centerdot2\centerdot1}{1} = 24通り
$$
組み合わせ(Combination)
n個のものをk個取り出した時の組み合わせ。
よくある「A,B,C,D,Eと書かれたカードから3枚選んだ時の組み合わせは何通り考えられるか?」という問題です。
式は
$$
{}_n \mathrm{C}_k = \dfrac{n!}{k!(n-k)!}
$$
$$
{}_5 \mathrm{C}_3 = \dfrac{n!}{k!(n-k)!} = \dfrac{5\centerdot4\centerdot3\centerdot2\centerdot1}{3\centerdot2\centerdot1\centerdot2\centerdot1} = 10通り
$$
条件付き確率
ある条件下で現象の起こる確率は条件に依存します。Bの条件下でAが起こる確率は$p(A|B)$と表せます。この「|」の事は"given"と読み。「Aの確率、Bが与えられた(given)時の」と直訳すると分かりやすいかと思います。
$$
p(A|B) = \dfrac{p(A\cap B)}{p(B)}
$$
問題
「赤玉4つ、白玉4つ、赤玉の内3つ、白玉の内1つは☆マークがついています。袋の中から1つ取り出し、赤であった時に、☆マークがついている確率は?」
という問いに対して、それぞれAとBは
Aは 「4個の赤玉のうち3つの☆マークの玉を引く」
Bは 「8個の玉のうち赤玉を引く」
$A \cap B$ は 「袋から玉1つをとり、それが赤であり、☆マークである」
$$
p(A|B) = \dfrac{p(A\cap B)}{p(B)} = \dfrac{\dfrac{3}{8}}{\dfrac{4}{8}} = \dfrac{3}{4}
$$
ベイズ推定(Bayesian Inference)
確率統計と同様に今日幅広く使われているものがベイズの定理です。ここでは少しベイズの定理に触れてみます。ベイズの定理(Bayes's Theorem) とは 起こった事象の事前分布とデータを組み合わせ、事後分布を算出し、その事変が起きた最もらしい確率を算出する 手法です。事前分布とはデータが与えられる前の分布で、分析者が予め設定する物です。その予測した事前分布と実際のデータを照らし合わせ、事後分布を算出します。
ベイズの定理(Bayes's Theorem)
$$
p(A|B) = \dfrac{ p(B|A)\centerdot p(A)}{p(B)}
$$
注目してほしいところが、上の公式はAが起こる確率p(A)に、$\frac{ p(B|A)}{p(B)}$ をかけて、Aの事後確率を算出している構図になっています。
$$
p(A|B) = \dfrac{ p(B|A)}{p(B)}\centerdot p(A)
$$
条件付き確率の分子を展開し代入したものになります。
NOTE:
$p(A|B) = \dfrac{p(A\cap B)}{p(B)}$
$p(A\cap B)=p(B|A)\centerdot p(A)$
例題
「運動会の準備中に赤玉が袋からこぼれ落ちてしまった。A,B,Cの3つの袋のどれかに赤玉を戻さなくてはいけないのだが、袋は口が硬く結ばれてしまっており、開けるのに労力がいる。他の業務で疲れ果てているあなたは最小限の労力で玉を袋の中に戻したい。備品表を見ると以下の情報がわかった」
A | B | C | |
---|---|---|---|
赤 | 4 | 2 | 2 |
白 | 1 | 3 | 2 |
それぞれの袋から赤玉がこぼれ落ちる確率$p(A)$は以下のように表す事ができる。
$
A: p(A|B_A) = \dfrac{4}{5}
$
$
B: p(A|B_B) = \dfrac{2}{5}
$
$
C: p(A|B_C) = \dfrac{1}{2}
$
それぞれの袋の確率を元にベイズの定理に当てはめると
Aからこぼれ落ちた確率
$$
p(B_A|A) = \dfrac{ p(A|B_A)\centerdot p(B_A)}{p(B)} = \dfrac{ p(A|B_A)\centerdot p(B_A)}{p(A|B_A) \centerdot p(B_A)+ p(A|B_B) \centerdot p(B_B)+ p(A|B_C) \centerdot p(B_C)}
= \dfrac{ \dfrac{4}{5}\centerdot \dfrac{1}{3}}{\dfrac{4}{5}\centerdot \dfrac{1}{3}+ \dfrac{2}{5}\centerdot \dfrac{1}{3}+ \dfrac{1}{2}\centerdot \dfrac{1}{3}} = 0.4705882
$$
Bからこぼれ落ちた確率
$$
p(B_B|A) = \dfrac{ p(A|B_B)\centerdot p(B_B)}{p(B)} = \dfrac{ p(A|B_B)\centerdot p(B_B)}{p(A|B_A) \centerdot p(B_A)+ p(A|B_B) \centerdot p(B_B)+ p(A|B_C) \centerdot p(B_C)}
= \dfrac{ \dfrac{2}{5}\centerdot \dfrac{1}{3}}{\dfrac{4}{5}\centerdot \dfrac{1}{3}+ \dfrac{2}{5}\centerdot \dfrac{1}{3}+ \dfrac{1}{2}\centerdot \dfrac{1}{3}} = 0.2352941
$$
Cからこぼれ落ちた確率
$$
p(B_C|A) = \dfrac{ p(A|B_C)\centerdot p(B_C)}{p(B)} = \dfrac{ p(A|B_C)\centerdot p(B_C)}{p(A|B_A) \centerdot p(B_A)+ p(A|B_B) \centerdot p(B_B)+ p(A|B_C) \centerdot p(B_C)}
= \dfrac{ \dfrac{1}{2}\centerdot \dfrac{1}{3}}{\dfrac{4}{5}\centerdot \dfrac{1}{3}+ \dfrac{2}{5}\centerdot \dfrac{1}{3}+ \dfrac{1}{2}\centerdot \dfrac{1}{3}} = 0.2941176
$$
NOTE:
$p(B)$は全ての袋方赤玉が転げ落ちる確率なので
$p(B) = \sum_{i=1}^3 p(A|B_i) \centerdot p(B_i)$. より
$p(B) = p(A|B_A) \centerdot p(B_A)+ p(A|B_B) \centerdot p(B_B)+ p(A|B_C) \centerdot p(B_C)$
A | B | C | |
---|---|---|---|
確率 | 0.4705882 | 0.2352941 | 0.2941176 |
以上のことから、Aの袋を開けると尤も良い事が証明されます。
ベイズ推定のすごい所は、実際起きた現象・データ(3つの袋のどれかから赤玉が転げ落ちる)と事前分布(赤玉の割合)を加味し、事後分布(尤もらしい袋)を計算できるところにあります。
おわりに
確率から始まり、ベイズの定理までを網羅的にまとめてみました。ベイズの詳しい説明はここでは省きましたが、概要だけ伝わっていたら嬉しいです。