概要・想定する読み手
昨今はずいぶんと文系プログラマが増えてきたように思えます。
センター数ⅠAが6点だった私がエンジニア顔できるのですから、いい時代になったものです。
とはいえ、最近はそんな数学拒否系プログラマも飽和してきたので、数学を再勉強することにしました。
分野は確率統計です。データサイエンティストを目指します。
基本的に自分用のメモとして書きますが、同類の方から見てもわかるよう、がんばって綺麗にまとめます。
標本空間(Ω/sample space)
- 試行の結果起こることの全体
- 1枚のコイン投げ:$Ω={表,裏}$
- 1回サイコロを振る:$Ω={1, 2, 3 ,4 , 5, 6}$
事象(event)
-
標本空間Ωの部分集合
-
各事象には確率が定義されるはず
- ならば、どうやって確率を定義するかという問題
- サイコロの目は、1/6である
- 確率の定義は、各事象の和が1となる正の実数
- 例.正四面体ダイスを考える。$Ω={1,2,3,4}$
- 事象全体の集合(べき集合)は$2^4=16$通り
- $Φ={ {1}, {2}, {3}, {4}, {1,2}, {2,3}, ... , {1,2,3,4} }$
- 事象全体の集合(べき集合)は$2^4=16$通り
- 1が出る確率$P({1})$と、1または2が出る確率$P({1,2})$を考える
- どっちが確率が高いか?無論、1または2が出るほうだ
- $P({1}) \leq P({1,2})$
- 一般に、二つの事象$A, B$に対して、
- $A \subset B \Rightarrow P({A}) < P({A}) $
- また、$P({1}) + P{2} = P({1,2})$であり、一般化すると、
- $A \cap B = Φ$に対して、$P({A}) + P{B} = P({A,B})$
- どっちが確率が高いか?無論、1または2が出るほうだ
- 一般的に考える
- べき集合の一般的な公式
- 冪集合の数について:$Φ=2^{|Ω|}$
- 補集合も冪集合内に含まれていることについて:$A \subset Ω \Rightarrow \bar{A} \subset B$
- 和集合について:$A \cap B = Φ$に対して、$P({A}) + P{B} = P({A,B})$
- 上記の一般的な公式を拡げると、完全加法族(冪集合の拡張概念)
- $P(A) \geq 0 $ for all $ A \subset \bf{A}$($\bf{A}$は完全加法族)
- $P(Ω) = 1$
- $A_1, A_2, ..., $が排反なら、$P( \bigcup_{i=1}^{∞}A_i ) = \sum_{i=1}^{∞}P(A_i)$
- べき集合の一般的な公式
- ならば、どうやって確率を定義するかという問題
-
上の公式から$P(\bar{A}) \Rightarrow 1 - P(A)$を示す
- 証明
- $A \subset \bf{A} \Rightarrow \bar{A} \subset \bf{A}$
- $A \cup \bar{A} = Ω, A \cap \bar{A} = Φ$
- $P(A \cup \bar{A}) = P(Ω) = 1$
- $P(A \cup \bar{A}) = P(A) + P(\bar{A})$
- 3・4より、$P(\bar{A}) \Rightarrow 1 - P(A)$
- 証明終了
- 証明
事象の独立性・条件付き確率
- 積の公式
- $P(B|A) = \frac{P(A \cap B)}{P(A)}$
- すなわち、$P(A)P(B|A) = P(A \cap B)$
- $P(B|A) = \frac{P(A \cap B)}{P(A)}$
- 全確率の公式
- $P(A) = P(B)P(A|B) + P(\bar{B})P(A|\bar{B})$
- 例.箱の中に赤玉が3個、白玉が2個ある。無作為に玉を1つ取り出した時に、2回目に取り出した玉が赤である確率は?(玉は戻さない)
- 2回目に赤が出る事象を$A$、1回めに赤が出る事象を$B$とすると、以下のことが自明
- $P(B) = \frac{3}{5}$
- $P(\bar{B}) = \frac{2}{5}$
- $P(A|B) = \frac{2}{4}$
- $P(A|\bar{B}) = \frac{3}{4}$
- よって、全確率の公式を用い、
- $P(A) = P(B)P(A|B) + P(\bar{B})P(A|\bar{B}) = \frac{3}{5} \frac{2}{4} + \frac{2}{5} \frac{3}{4} = \frac{3}{5}$
- 2回目に赤が出る事象を$A$、1回めに赤が出る事象を$B$とすると、以下のことが自明
ベイズの公式
- $P(B|A) = \frac{P(B)P(A|B)}{P(A)}$
- 同時確率(積の公式)は事象を入れ替えても同じ
- $P(A \cap B) = P(B \cap A)$
- $P(A \cap B) = P(A)P(B|A) = P(B)P(A|B)$
- ここからベイズの定理を導ける
- 同時確率(積の公式)は事象を入れ替えても同じ
- 例題
- 設問
- インフルエンザにかかった人の99%は、検査結果が陽性である
- 健康な人を診断したときも、2%は陽性となる
- 1000人に1人が罹患している時、陽性の人の内実際に罹患している確率は?
- 回答
- 罹患している事象を$A$、陽性の結果となった事象を$B$とする
- $P(A) = \frac{1}{1000}$
- $P(B|A) = \frac{99}{100}$
- $P(\bar{A})P(B|\bar{A}) = \frac{2}{100}$
- $P(B) = P(A)P(B|A) + P(\bar{A})P(B|\bar{A}) = \frac{1}{1000} \frac{99}{100} + \frac{999}{1000} \frac{2}{100} = \frac{2097}{100000}$
- 求めるべきは、$P(A|B)$である
- ベイズの定理より、
- $P(A|B)=\frac{P(A)P(B|A)}{P(B)} = \frac{1}{1000} \frac{99}{100} \frac{100000}{2097} = \frac{11}{233}$
- 罹患している事象を$A$、陽性の結果となった事象を$B$とする
- 設問
確率変数
-
確率変数の基礎知識
- 確率的に値が変わる変数
- 通常、イタリック体の大文字で表す
- 例.$X,Y,...$
- 確率変数が取りうる値は、イタリック体の小文字で表す
- 例.$x,y,...$
- $P(X=x)$で$X=x$となる確率を表す
- 確率変数には、以下のパターンがある
- 離散型(discrete)
- 連続型(continuous)
-
標本空間$Ω={x_1, x_2, ..., x_N}$について
- $Ω$上の確率変数を$X$
$P(X=x_n) ($n=1,2,...,N$)$
と定める - $Pn(1 \leq N)$は$P_n \geq 0$かつ総和が1($ \sum_{n=1}^{N} P_n = 1 $)
- 平均
- $E(X) = \sum_{n=1}^{N} x_n P_n$
- 1回サイコロを降って出る目を$X$とする場合
- $Ω={1,2,3,4,5,6}$
- $P(X=x)=\frac{1}{6} (n=1,2,...,6)$
- $E(X) = 1 \frac{1}{6} + 2 \frac{1}{6} + ... + 6 \frac{1}{6} = \frac{7}{2}$
- $Ω$上の確率変数を$X$
-
連続型$rv$の場合は$P(X=x)$の代わりに$P(a<X<b)$を与える
- とくに、$P(a < X < b) = \int_a^b f(x)dx $
- $f(x)$は$f(x) \geq 0$を満たす関数となる場合を考える
- $f(x)$を確率密度関数(probability density function)という
- 釣り鐘の、特定範囲の面積を指す
- 範囲$(a,b)$は、開区間でも閉区間でも面積の誤差は無限小なので、気にしない
- 平均
- $E(X) = \int_{-∞}^∞ x f(x)dx$
- ∞とはすなわち、確率変数が取る値全体
- $E(X) = \int_{-∞}^∞ x f(x)dx$
- とくに、$P(a < X < b) = \int_a^b f(x)dx $
ひと区切り
数学拒否系プログラマのための確率統計の基礎(2) に続きます。