はじめに

確率の基本的な内容のまとめです．個人的な復習も兼ねています．
記事を書くにあたり，主に内容の選定などで『現代数理統計学の基礎』(久保川達也著)を参考にしています．用語や記号は，私の大学での講義ノートを参考にしているため著書とは一部異なるものがあります．

確率空間

確率は標本空間 $\Omega$ ， $\Omega$ 上の $\boldsymbol\sigma$-集合族¹ $\mathcal{F}$ ， $(\Omega,\mathcal{F})$ 上の確率測度 $P$ の3つの要素で決まり， $(\Omega,\mathcal{F},P)$ のセットを確率空間といいます．確率を考えるための土台となるものです．

それぞれ詳しく見ていきます．

標本空間

【定義】
標本空間とは，試行によって起こりえるすべての結果（標本）の集合です．全事象ともいいます．

コインを1回投げるとき　　$\Omega=\lbrace \mbox{表,裏} \rbrace$
サイコロを1回投げるとき　$\Omega=\lbrace 1,2,3,4,5,6 \rbrace$
サイコロを2回投げるとき　$\Omega=\lbrace(i,j)|i,j= 1,2,3,4,5,6 \rbrace$

また，標本空間 $\Omega$ の部分集合を事象といいます．

確率 $P$ とはこの事象と区間 $[0,1]$ の間の実数を対応させる関数です．つまり，ある事象 $A\subset \Omega$ に対して，$$P: A\longmapsto P(A)\in[0,1]$$となります．ここから， $P$ の定義域は $\Omega$ の「部分集合の集合」になることが分かるかと思います．このようなものを部分集合族といい，確率をうまく定義するために，部分集合族は以下の3つの性質を満たすものを考えます．

σ-集合族

【定義】
集合 $\Omega$ の部分集合族 $\mathcal{F}$ が $\Omega$ 上の $\sigma$-集合族であるとは，$\mathcal{F}$ が以下の3つの性質を満たすことをいいます．

$\emptyset \in \mathcal{F}$
$A\in \mathcal{F}$ ならば， $A^c \in \mathcal{F}$
$A_1,A_2,\dots\in \mathcal{F}$ ならば， $\displaystyle\bigcup_{k=1}^\infty A_k \in \mathcal{F}$

$(\Omega,\mathcal{F})$ を可測空間といいます．ここから確率測度 $P$ が定義できます．

確率測度

【定義】
関数 $P$ が $(\Omega,\mathcal{F})$ 上の確率測度であるとは，$P$ が以下の3つの性質を満たすことをいいます．

すべての $A\in\mathcal{F}$ に対して， $P(A)\geq 0$
$P(\Omega) = 1$
$A_1,A_2,\dots\in \mathcal{F}$ が互いに排反であるとき，すなわち $A_i \cap A_j = \emptyset\ (i\neq j)$ の場合，$\displaystyle P\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i)$ が成立する．（$\sigma$-加法性）

これで確率を考えることができます．

以下では，確率空間 $(\Omega,\mathcal{F},P)$ を軸に記述していきます．

確率の基本的な性質

確率の基本的な性質をまとめます．証明はググればいくらでも出てくるので省略しています．

事象 $A,B\in\mathcal{F}$ に対して，

$P(\emptyset) = 0$
$P(A^c) = 1-P(A)$
$A\subset B$ ならば， $P(A)\leq P(B)$ （単調性）
$P(A\cup B) \leq P(A) + P(B)$
$P(A\cup B) = P(A) + P(B) - P(A\cap B)$

下の2つは $A_1,A_2,\dots ,A_n \in \mathcal{F}$ に対して一般化できます．

劣加法性

$$P\left(\bigcup_{i=1}^n A_i \right) \leq \sum_{i=1}^n P(A_i)$$

$n$ を $\infty$ としても成り立ちます（σ-劣加法性）

加法法則

\begin{align}
P\left(\bigcup_{i=1}^n A_i \right) &= \sum_{i=1}^n P(A_i)-\sum_{i=1}^{n-1}\sum_{j=i+1}^n P(A_i\cap A_j)+\cdots +(-1)^{n-1}P\left(\bigcap_{i=1}^n A_i \right)
\end{align}

参考：Wikipedia-包除原理

条件付き確率

【定義】
事象 $A,B\in \mathcal{F}$ があり， $P(A)>0$ のとき，
$$P(B|A)=\frac{P(A\cap B)}{P(A)}$$を，事象 $A$ が与えられたときの事象 $B$ の条件付き確率といいます． $P(\cdot|A)$ は，$(\Omega,\mathcal{F})$ 上の確率測度です．

（例）
サイコロを2回投げる．事象 $A$「目の積が偶数」が与えられたとき，事象 $B$ 「1回目に5が出る」の条件付き確率は？
$P(A)=1-(3/6)^2 = 3/4$ （ $A$ の余事象は「2回とも奇数が出る」に同じです．）
$P(A\cap B)= (1/6)\times(3/6)=1/12$
より，$P(B|A)=(1/12)\div(3/4)=1/9$ となります．

乗法法則

事象 $A,B\in \mathcal{F}$ があり， $P(A)>0$ のとき，以下の式が成り立ちます．
$$P(A\cap B)=P(B|A)P(A)$$

条件付き確率の式から簡単に導けます．

一般化すると以下のようになります．
事象 $A_1,A_2,\dots,A_n \in \mathcal{F}$ があり， $\displaystyle P\left(\bigcap_{i=1}^{n-1} A_i\right)>0$ のとき，以下の式が成り立ちます．$$P\left(\bigcap_{i=1}^{n-1} A_i\right) = P\left(A_n\left|\bigcap_{i=1}^{n-1} A_i\right)\right. \cdots P(A_3|A_1\cap A_2)P(A_2|A_1)P(A_1)$$

帰納法を用いて証明できます．

全確率の公式

$A_1,A_2,\dots\in \mathcal{F}$ を互いに排反な事象の列とし， $P(A_i)>0$， $\displaystyle \bigcup_{i=1}^\infty A_i = \Omega$ を満たすとき²，事象 $B\in \mathcal{F}$ の確率は以下のように分解できます．
$$P(B) = \sum_{i=1}^\infty P(B|A_i)P(A_i)$$

（証明）
$$P(B)=P\left(\Omega\cap B\right)=P\left(\left(\bigcup_{i=1}^\infty A_i\right)\cap B\right)=P\left(\bigcup_{i=1}^\infty (A_i\cap B)\right)$$$$=\sum_{i=1}^\infty P(A_i\cap B)= \sum_{i=1}^\infty P(B|A_i)P(A_i)$$

ベイズの定理

$A_1,A_2,\dots\in \mathcal{F}$ を互いに排反な事象の列とし， $P(A_i)>0$， $\displaystyle \bigcup_{i=1}^\infty A_i = \Omega$ を満たすとき，任意の事象 $B\in \mathcal{F}$ に対して， $B$が与えられたときの $A_i$ の条件付き確率は以下のように表されます．
$$P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{j=1}^n P(B|A_j)P(A_j)}$$

（証明）
$\displaystyle P(A_i|B)=\frac{P(B\cap A_i)}{P(B)}=\frac{P(B|A_i)P(A_i)}{P(B)}$ であり，分母に全確率の公式を用います．

事象の独立性

【定義】
2つの事象 $A,B\in \mathcal{F}$ が独立であるとは，以下の式が成り立つことをいいます．
$$P(A\cap B) = P(A)P(B)$$

$A$ と $B$ が全く独立に起こるということは，$B$ が起こる確率は $A$ が起こったという条件の有無にかかわらず変わらないはずです．つまり， $P(B|A)=P(B)$ であり， $P(A\cap B) =P(A)P(B|A)= P(A)P(B)$ となります．

3つ以上の事象へ一般化すると以下のようになります．

【定義】
事象 $A_1,A_2,\dots,A_n \in\mathcal{F}$ が互いに独立であるとは，任意の $J\subset \lbrace 1,2,\cdots, n\rbrace$ に対して，以下の式が成り立つことをいいます．
$$P\left(\bigcap_{i\in J} A_{i}\right) = \prod_{i\in J} P(A_{i})$$

『任意の $A_i,A_j\ (i\neq j)$ に対して $P(A_i\cap A_j) = P(A_i)P(A_j)$ 』や
『 $\displaystyle P\left(\bigcap_{i=1}^n A_{i}\right) = \prod_{i=1}^n P(A_{i})$ 』では，定義として不十分であることに注意しましょう．これについてはWIISの記事でとても分かりやすく説明されています．

確率の連続性

事象列の極限

連続性を確認する前に，事象列の極限について定義します．

事象の列 $A_1,A_2,\dots\in \mathcal{F}$ が，$A_1 \subset A_2 \subset \cdots $ を満たすとき単調増大列といい，$A_1 \supset A_2 \supset \cdots $ を満たすとき単調減少列といいます．

単調増大列の極限

【定義】
事象の列 $A_1,A_2,\dots\in \mathcal{F}$ が単調増大列のとき，その極限を以下のように定義します．
$$\lim_{n\rightarrow \infty} A_n = \bigcup_{i=1}^\infty A_i$$

$\displaystyle A_n = \bigcup_{i=1}^n A_i$ が成り立ちます．

単調減少列の極限

【定義】
事象の列 $A_1,A_2,\dots\in \mathcal{F}$ が単調減少列のとき，その極限を以下のように定義します．
$$\lim_{n\rightarrow \infty} A_n = \bigcap_{i=1}^\infty A_i$$

$\displaystyle A_n = \bigcap_{i=1}^n A_i$ が成り立ちます．

事象列の極限

【定義】
事象の列 $A_1,A_2,\dots\in \mathcal{F}$ に対して，上極限と下極限を以下のように定義します．

上極限：$\displaystyle \lim_{n\rightarrow \infty} \sup A_n = \lim_{n\rightarrow \infty} \bigcup_{i=n}^\infty A_i = \bigcap_{n=1}^\infty\bigcup_{i=n}^\infty A_i $
下極限：$\displaystyle \lim_{n\rightarrow \infty} \inf A_n\ = \lim_{n\rightarrow \infty} \bigcap_{i=n}^\infty A_i = \bigcup_{n=1}^\infty\bigcap_{i=n}^\infty A_i $

そして，事象の列 $A_1,A_2,\dots\in \mathcal{F}$ が極限 $\lim_{n\rightarrow \infty} A_n$ をもつことは以下が成り立つことをいいます．
$$\lim_{n\rightarrow \infty} \sup A_n=\lim_{n\rightarrow \infty} \inf A_n$$

単調な事象列の場合

事象の列 $A_1,A_2,\dots,\in \mathcal{F}$ が単調増大列または単調減少列のとき，以下の式が成り立ちます．
$$P\left(\lim_{n\rightarrow \infty} A_i\right)=\lim_{n\rightarrow \infty} P(A_n)$$これを確率の連続性といいます．

証明（単調増大列のとき）
$B_1=A_1$，$B_n=A_n\cap A_{n-1}^c$ とおくと， $B_1,B_2,\dots$ は互いに排反になるので， $\displaystyle P\left(\bigcup_{i=1}^\infty B_i\right) = \sum_{i=1}^\infty P(B_i)$ となります．また，$B_n$ の決め方から $\displaystyle A_n=\bigcup_{i=1}^n B_i$ かつ $\displaystyle \bigcup_{i=1}^\infty A_i = \bigcup_{i=1}^\infty B_i $ が成り立つので，以下のように式変形できます．
$$P\left(\bigcup_{i=1}^\infty A_i\right)=P\left(\bigcup_{i=1}^\infty A_i\right) = P \left(\bigcup_{i=1}^\infty B_i\right)= \sum_{i=1}^\infty P(B_i)$$$$=\lim_{n\rightarrow \infty}\sum_{i=1}^n P(B_i)= \lim_{n\rightarrow \infty} P\left(\bigcup_{i=1}^n B_i\right)=\lim_{n\rightarrow \infty} P(A_n)$$

証明（単調減少列のとき）　
単調増大列に関する連続性を用います．
$$P\left(\bigcap_{i=1}^\infty A_i\right)=1-P\left(\left(\bigcap_{i=1}^\infty A_i\right)^c\right)=1-P\left(\bigcup_{i=1}^\infty A_i^c\right)$$$$=1-\lim_{n\rightarrow \infty} P(A_n^c)=\lim_{n\rightarrow \infty} \left(1-P(A_n^c)\right)=\lim_{n\rightarrow \infty} P(A_n)$$

確率の連続性を用いると， $\sigma$-劣加法性を証明できます．

σ-劣加法性

事象の列 $A_1,A_2,\dots\in \mathcal{F}$ に対して以下の式が成り立ちます．
$$P\left(\bigcup_{i=1}^\infty A_i \right) \leq \sum_{i=1}^\infty P(A_i)$$

証明
$\displaystyle B_i=\bigcup_{i=1}^n A_i$ とおくと $B_1,B_2,\dots$ は単調増大列となっているので，以下のように式変形できます．
$$P\left(\bigcup_{i=1}^\infty A_i \right) = P\left(\bigcup_{n=1}^\infty\bigcup_{i=1}^n A_i \right) =P\left(\bigcup_{n=1}^\infty B_n \right) = \lim_{n\rightarrow \infty} P(B_n) $$$$= \lim_{n\rightarrow \infty}P\left(\bigcup_{i=1}^n A_i \right) \leq \lim_{n\rightarrow \infty} \sum_{i=1}^ P(A_i) = \sum_{i=1}^\infty P(A_i)$$

一般の事象列の場合

事象の列 $A_1,A_2,\dots\in \mathcal{F}$ が極限をもつ，すなわち，$\displaystyle \lim_{n\rightarrow \infty} \sup A_n =\lim_{n\rightarrow \infty} \inf A_n \left( =\lim_{n\rightarrow \infty}A_n\right)$ のとき，以下の式が成り立ちます．
$$P\left(\lim_{n\rightarrow \infty} A_n\right)=\lim_{n\rightarrow \infty} P(A_n)$$

証明
$\displaystyle \bigcap_{i=n}^\infty A_i \subset A_n \subset \bigcup_{i=n}^\infty A_i$ より，$\displaystyle P\left(\bigcap_{i=n}^\infty A_i\right) \subset P(A_n) \subset P\left(\bigcup_{i=n}^\infty A_i\right)$ です．$n\rightarrow \infty$ としたとき，左辺と右辺がどちらも$\displaystyle P\left(\lim_{n\rightarrow \infty} A_n\right)$ になることを示します．ここで，$\displaystyle \bigcap_{i=n}^\infty A_i$ は単調減少列， $\displaystyle\bigcup_{i=n}^\infty A_i$ は単調増大列であることに気づいて，それらの連続性を用います．　
(左辺) $\displaystyle \xrightarrow[n\rightarrow \infty ]{} P\left(\bigcup_{n=1}^\infty\bigcap_{i=1}^n A_i\right) = P\left(\lim_{n\rightarrow \infty} \inf A_n\right) =P\left(\lim_{n\rightarrow \infty} A_n\right)$
(左辺) $\displaystyle \xrightarrow[n\rightarrow \infty ]{} P\left(\bigcap_{n=1}^\infty\bigcup_{i=1}^n A_i\right) = P\left(\lim_{n\rightarrow \infty} \sup A_n\right) =P\left(\lim_{n\rightarrow \infty} A_n\right)$

$\sigma$-集合族のほかに，$\sigma$-集合体，$\sigma$-加法族，完全加法族，可算加法族などともいいます． ↩
$P(A_i)>0$， $\displaystyle \bigcup_{i=1}^\infty A_i = \Omega$ を満たす，互いに排反な事象の列 $A_1,A_2,\dots\in \mathcal{F}$ を「 $\boldsymbol\Omega$ の分割」といいます． ↩

確率の基本事項まとめ

はじめに

確率空間

標本空間

σ-集合族

確率測度

確率の基本的な性質

劣加法性

加法法則

条件付き確率

乗法法則

全確率の公式

ベイズの定理

事象の独立性

確率の連続性

事象列の極限

単調増大列の極限

単調減少列の極限

事象列の極限

単調な事象列の場合

σ-劣加法性

一般の事象列の場合