【大学数学】速習確率論基礎！ - 大学半年分の数学

Posted at 2024-08-01

はじめに

この記事では、大学で学んだ確率論基礎について超高速で紹介します。
確率論基礎では、高校で学んだ「古典的確率論」と、一部の人が学んだ「確率分布と統計的な推測」に対して厳密な定義を与え、直感的に正しいと思われる極限定理を証明しました。試験対策にでも使ってください。

記事内に証明は含まれませんので、証明が知りたい方は参考文献等を参照してください。

この記事を読むことで以下のことがわかります

確率と、確率変数の定義
確率変数の期待値、分散、共分散
基本的な確率分布
大数の法則、中心極限定理

\def\middlemid{\;\middle|\;}
\def\set#1{\left\{{#1}\right\}}
\def\setin#1#2{\left\{{#1} \middlemid {#2}\right\}}

確率と確率変数

確率は、古典的には事象の起こりやすさを意味して、「事象が起こる場合の数」を「同様に確からしく起こりうるすべての場合の数」で割ったものと定義されていた。しかしこれでは、分母が無限大になる場合に確率が定義できなくなってしまう。また、同様に確からしいとは何か、という問題もある。

そこで次のように必要な性質を満たすものとして、確率を定義する。

適当な集合$\Omega$を取り、$\Omega$の部分集合のうち、確率を定義するものを事象と呼ぶ。事象の集合を$\mathcal{F}$と書いて、以下の条件を満たすとする。

$\emptyset, \Omega \in \mathcal{F}$
$A \in \mathcal{F} \Rightarrow \Omega \setminus A \in \mathcal{F}$
$\displaystyle \set{A_n}_{n=1}^\infty \in \mathcal{F} \Rightarrow \bigcup_{n=1}^\infty A_n \in \mathcal{F}$

定義のイメージ

$\Omega$にはすべての結果が入っている。例えば、サイコロを振るときには、サイコロがどのように投げられ、どのような軌道で転がるかなど、すべての可能性が入っているとも考える事ができるし、サイコロの出る目が入っているとも考えることができる。別にサイコロの転がり方（時間によってパラメータ付けされた曲線）が入っていると考えても良い。

$\mathcal{F}$は、その部分集合のうち確率を定義するもの全体である。別にすべての部分集合に対して確率を定義する必要はない。

また、定義は必要なことの要請と考えると解釈しやすい。
ここでは、

なにも起こらない確率、すべての根元事象が起こる確率ががわかる
ある事象が起こる確率がわかれば、その事象が起こらない確率もわかる
ある事象が起こる確率がわかれば、その事象のいずれかが起こる状況の確率もわかる

ということを要請している。

補足：
この条件を満たす 2 つ組$(\Omega, \mathcal{F})$を可測空間と呼び、$\mathcal{F}$を$\sigma$加法族と呼ぶ。

確率は、事象に対して 0 以上 1 以下の実数を対応させる写像$P$で、次の条件を満たすものとする。

$0 \leq P(A) \leq 1$
$P(\Omega) = 1$
$\displaystyle \set{A_n}_{n=1}^\infty \in \mathcal{F}, A_i \cap A_j = \emptyset (i \neq j) \Rightarrow P(\bigcup_{n=1}^\infty A_n) = \sum_{n=1}^\infty P(A_n)$

最後の条件は、直和の記号を$\Sigma$で書くことにすれば、$P(\Sigma A_n) = \Sigma P(A_n)$と書ける。

定義のイメージ

定義は必要なことの要請と考えると解釈しやすい。
ここでは、

確率は 0 以上 1 以下である
すべての根元事象が起こる確率は 1 である
互いに排反な事象の和のいずれかが起こる確率は、それぞれの確率の和である

ということを要請している。

補足：
3 つ組$(\Omega, \mathcal{F}, P)$を確率空間と呼ぶ。
確率空間は測度空間$(X, \mathcal{M}, \mu)$のうち、$\mu(X) = 1$を満たすものとして定義される。

また、この定義から次のような性質が導かれる。

$A, B \in \mathcal{F} \Rightarrow A \cup B, A \cap B, A \setminus B$ も $\mathcal{F}$
単調性：$A \subset B \Rightarrow P(A) \leq P(B)$
有限加法性：$A$と$B$が排反なら、$P(A \cup B) = P(A) + P(B)$
増大連続性：$\displaystyle A_1 \subset A_2 \subset \cdots \Rightarrow P(\bigcup_{n=1}^\infty A_n) = \lim_{n \to \infty} P(A_n)$
減少連続性：$\displaystyle A_1 \supset A_2 \supset \cdots \Rightarrow P(\bigcap_{n=1}^\infty A_n) = \lim_{n \to \infty} P(A_n)$
加算劣加法性：$\displaystyle A_1, A_2, \ldots \in \mathcal{F} \Rightarrow P(\bigcup_{n=1}^\infty A_n) \leq \sum_{n=1}^\infty P(A_n)$

補足：
これらは、測度空間$(X, \mathcal{M}, \mu)$が$\mu(X) < \infty$を満たす場合に成り立つ。

確率空間の例

Ex.1 (サイコロ)

$\Omega = \set{1,2,3,4,5,6}$、$\mathcal{F} = 2^\Omega$、$P(A) = \displaystyle \frac{|A|}{6}$とする。例えば、サイコロを一回振ったときに偶数が出る確率は、$P(\set{2,4,6}) = \displaystyle \frac{3}{6} = \frac{1}{2}$となる。

Ex.2 (円の面積)

$\Omega = [0,1]^2$、$\mathcal{F} = 2^\Omega$、$P$はルベーグ測度とする。（ルベーグ測度は、直感的に面積がわかる部分集合に面積を対応させることができ、$P(\Omega) = 1$ を満たす）例えば、$\Omega$内に適当な点を取り、その点が原点中心の半径 $1$ の開円板に入る確率は、$\displaystyle \frac{\pi}{4}$ となる。

事象の独立性

$A$、$B$、$A_1, A_2, \ldots, A_n$が事象であるとする。

$A$と$B$が独立 $\Leftrightarrow P(A \cap B) = P(A)P(B)$
$A_1, A_2, \ldots, A_n$が独立 $\Leftrightarrow$
任意の部分集合$A_{i_1}, A_{i_2}, \ldots, A_{i_k}$に対して、$\displaystyle P(\bigcap_{j=1}^k A_{i_j}) = \prod_{j=1}^k P(A_{i_j})$

条件付き確率とベイズの定理

$A$、$B$が事象であるとする。

$P(B) > 0$のとき、$B$のもとでの$A$の条件付き確率$P(A|B)$を$\displaystyle \frac{P(A \cap B)}{P(B)}$と定義する。これは事象$B$が起こったとき、事象$A$が起こる確率を意味する。

ベイズの定理

$P(A), P(B) > 0$のとき、$P(A|B) = \displaystyle \frac{P(B|A)P(A)}{P(B)}$ が成り立つ。

確率変数

$(\Omega, \mathcal{F}, P)$を確率空間、$(S, \mathcal{S})$を可測空間とする。
写像$X: \Omega \to S$が確率変数であるとは、任意の$B \in \mathcal{S}$に対して$X^{-1}(B) \in \mathcal{F}$が成り立つことをいう。

ここで、$\mu: \mathcal{S} \to [0,1]$を$\mu(B) = P(X^{-1}(B))$と定義すると、$\mu$は確率測度となる。

\begin{array}{ccc}
\Omega & \!\!\!\!\!\xrightarrow{X} & \!\!S\\
\quad \downarrow{P} & \!\!\swarrow{\!\mu}\\
[0,1]\\
\end{array}

定義のイメージ

$\Omega$は全事象であり、混沌としているが、確率変数によってそこから知りたい情報だけを取り出すことができる。例えば、$\Omega$をサイコロを投げて時の軌道として、$S$をサイコロの出る目とすると、確率変数はサイコロの出る目を取り出すことに相当する。

例：

$\Omega = \set{1,2,3,4,5,6}$、$\mathcal{F} = 2^\Omega$、$P(A) = \displaystyle \frac{|A|}{6}$とする。
$S = {0,1}$、$\mathcal{S} = 2^S$、$X: \Omega \to S$を$\omega$が奇数なら$1$、偶数なら$0$を対応させる写像とする。

すると、$\mu = P \circ X^{-1}$は、$\mu(\set{0}) = P(X^{-1}({0})) = P({1,3,5}) = \displaystyle \frac{1}{2}$、$\mu({1}) = P(X^{-1}({1})) = P(\set{2,4,6}) = \displaystyle \frac{1}{2}$となる。

確率変数の分布、期待値、分散

離散分布、連続分布

$S$が高々加算集合のとき、確率変数$X$を離散確率変数、$\mu$を離散分布という。また、次の確率質量関数$\rho: S \to [0,\infty)$が存在する。

$$
\forall A \in \mathcal{S}, \mu(A) = \sum_{\omega \in A} \rho(s)
$$
$S$が$\mathbb{R}^d$の区間の$d$次元直積であり、$\mathcal{S}$が$\mathbb{R}$が$S$を含む最小の$\sigma$加法族であるとき、確率変数$X$を連続確率変数、$\mu$を連続分布という。また、ある条件下で次の確率密度関数$f: S \to [0,\infty)$が存在する。

$$
\forall A \in \mathcal{S}, \mu(A) = \int_A f(s) ds
$$

同時分布、独立性

$X, Y$を確率変数とする。$X$の分布が$\mu_X$、$Y$の分布が$\mu_Y$のとき、$X, Y$の同時分布は$\mu_{X,Y}(A \times B) = P(X \in A, Y \in B)$と定義される。
$X, Y$が独立とは、任意の$A \in \mathcal{S}_X, B \in \mathcal{S}_Y$に対して、$\mu_{X,Y}(A \times B) = \mu_X(A)\mu_Y(B)$が成り立つことをいう。

期待値

$X: \Omega \to S$を確率変数とし、$g: S \to \mathbb{R}$を考える。

$g(X)$の期待値を$\mathbb{E}[g(X)]$と書くと、

\mathbb{E}[g(X)] = \left\{ \begin{array}{ll} \displaystyle \sum_{s \in S} g(s) \rho(s) & (S が離散)\\ \displaystyle \int_S g(s) f(s) ds & (S が連続) \end{array} \right.

と定義される。（ただし、和や積分が収束するときに限る）

期待値の性質

$\mathbb{E}[aX + bY] = a\mathbb{E}[X] + b\mathbb{E}[Y]$
$X \leq Y \Rightarrow \mathbb{E}[X] \leq \mathbb{E}[Y]$
マルコフの不等式：$P(X \geq a) \leq \displaystyle \frac{\mathbb{E}[X]}{a} \quad (a > 0)$
シュワルツの不等式：$\mathbb{E}[|XY|] \leq \sqrt{\mathbb{E}[X^2]\mathbb{E}[Y^2]}$

分散、共分散

X の分散を $\text{Var}[X]$ と書き、$\text{Var}[X] = \mathbb{E}[(X - \mathbb{E}[X])^2]$ と定義する。

X, Y の共分散を $\text{Cov}[X,Y]$ と書き、$\text{Cov}[X,Y] = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]$ と定義する。

分散、共分散の性質

$\text{Var}[X] = \mathbb{E}[X^2] - \mathbb{E}[X]^2$
$\text{Var}[aX + b] = a^2\text{Var}[X]$
$\text{Cov}[X,Y] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]$
$\text{Var}[aX + bY] = a^2\text{Var}[X] + b^2\text{Var}[Y] + 2ab\text{Cov}[X,Y]$
チェビシェフの不等式：$P(|X - \mathbb{E}[X]| \geq a) \leq \displaystyle \frac{\text{Var}[X]}{a^2} \quad (a > 0)$

分布の例

分布名	分布の記法	$S$	確率質量関数/確率密度関数	期待値	分散
離散一様分布		有限集合$S$	$\rho(s) = \displaystyle \frac{1}{\|S\|}$
二項分布	$B(n,p)$	${0,1,2,\ldots,n}$	$\rho(s) = \displaystyle \binom{n}{s}p^s(1-p)^{n-s}$	$np$	$np(1-p)$
ポアソン分布	$\text{Poi}(c)$	${0,1,2,\ldots}$	$\rho(s) = \displaystyle \frac{c^s}{s!}e^{-c}$	$c$	$c$
幾何分布	$\text{Geo}(p)$	${1,2,\ldots}$	$f(s) = (1-p)^{s-1}p$	$\displaystyle \frac{1}{p}$	$\displaystyle \frac{1-p}{p^2}$
一様分布	U(a,b)	$[a,b]$	$f(s) = \displaystyle \frac{1}{b-a}$	$\displaystyle \frac{a+b}{2}$	$\displaystyle \frac{(b-a)^2}{12}$
指数分布	$\text{Exp}(\lambda)$	$[0,\infty)$	$f(s) = \lambda e^{-\lambda s}$	$\displaystyle \frac{1}{\lambda}$	$\displaystyle \frac{1}{\lambda^2}$
正規分布	$N(m,v)$	$\mathbb{R}$	$f(s) = \displaystyle \frac{1}{\sqrt{2\pi v}}e^{-\frac{(s-m)^2}{2v}}$	$m$	$v$
ガンマ分布	$\gamma(\lambda,a)$	$[0,\infty)$	$f(s) = \displaystyle \frac{\lambda^a}{\Gamma(a)}s^{a-1}e^{-\lambda s}$	$\displaystyle \frac{a}{\lambda}$	$\displaystyle \frac{a}{\lambda^2}$

補足:

ベルヌーイ分布：$B(1,p)$ のこと
ガンマ関数 $\Gamma(a)$：階乗の概念を非整数に拡張した関数であり、$a$ が整数のとき、$\Gamma(a) = (a-1)!$ となる。また、$\Gamma(x) = \displaystyle \int_0^\infty t^{x-1}e^{-t}dt$ と定義される。
正規分布は、$N(\mu, \sigma^2)$ と書くことが多い。
標準正規分布：$N(0,1)$ のこと

分布の再生性

$X_1, X_2$ が独立な確率変数とする。

$X_1, X_2$ が $B(n_1, p)$、$B(n_2, p)$ に従うとき、$X_1 + X_2$ は $B(n_1 + n_2, p)$ に従う。
$X_1, X_2$ が $\text{Poi}(c_1)$、$\text{Poi}(c_2)$ に従うとき、$X_1 + X_2$ は $\text{Poi}(c_1 + c_2)$ に従う。
$X_1, X_2$ が $N(\mu_1, \sigma_1^2)$、$N(\mu_2, \sigma_2^2)$ に従うとき、$X_1 + X_2$ は $N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$ に従う。
$X_1, X_2$ が $\gamma(\lambda, a_1)$、$\gamma(\lambda, a_2)$ に従うとき、$X_1 + X_2$ は $\gamma(\lambda, a_1 + a_2)$ に従う。

分布の無記憶性

$X$ が $\text{Geo}(p)$ に従うとき、任意の $n, m \in \mathbb{N}$ に対して、$P(X > n+m | X > n) = P(X > m)$ が成り立つ。
逆に、この性質を満たし、正の整数値のみを取る離散確率変数は幾何分布のみである。
$X$ が $\text{Exp}(\lambda)$ に従うとき、任意の $s, t \geq 0$ に対して、$P(X > s+t | X > s) = P(X > t)$ が成り立つ。
逆に、この性質を満たす連続確率分布は指数分布のみである。

分布間の関係

$X_n$ が$B(n, p_n)$ に従うとき、$\displaystyle \lim_{n \to \infty} p_n = 0$ かつ $\displaystyle \lim_{n \to \infty} np_n = c$ ならば、$X_n$ は $\text{Poi}(c)$ に従う。
${X_n}$ が独立で、それぞれが $B(1,p)$ に従うとき、$T=\min\set{n \geq 1 | X_n = 1}$ は $\text{Geo}(p)$ に従う。
$X$が$\text{Exp}(\lambda)$に従うとき、$T = \lfloor X \rfloor + 1$ は$\text{Geo}(1-e^{-\lambda})$に従う。
$X$ が $N(0,1)$ に従うとき、$X^2$ は $\gamma(\frac{1}{2}, \frac{1}{2})$ に従う。

正規分布の性質

$X$ が $N(m,v)$ に従うとき、$aX + b$ は $N(am+b, a^2v)$ に従う。

大数の法則、中心極限定理

収束

ここでは、確率変数列の収束について述べる。¹

${X_n}$ が確率変数列で、$X$ が確率変数であるとする。

${X_n}$ が $X$ に概収束するとは、$P(\lim_{n \to \infty} X_n = X) = 1$ が成り立つことをいい、$X_n \xrightarrow{a.s.} X$ と書く。
${X_n}$ が $X$ に確率収束するとは、任意の $\epsilon > 0$ に対して、$\displaystyle \lim_{n \to \infty} P(|X_n - X| > \epsilon) = 0$ が成り立つことをいい、$X_n \xrightarrow{P} X$ と書く。

また、概収束するならば確率収束する。

大数の法則

${X_n}$ を$\mathbb{R}$に値を取る独立同分布な確率変数列とする。
$S_n = \displaystyle \sum_{i=1}^n X_i$ とする。

ここで$\mathbb{E}[|X_1|] < \infty$ のとき、

弱法則：$\displaystyle \frac{S_n}{n} \xrightarrow{P} \mathbb{E}[X_1]$
強法則：$\displaystyle \frac{S_n}{n} \xrightarrow{a.s.} \mathbb{E}[X_1]$

中心極限定理

${X_n}$ を$\mathbb{R}$に値を取る独立同分布な確率変数列とする。
$S_n = \displaystyle \sum_{i=1}^n X_i$ とする。

ここで$\mathbb{E}[X_1] = m < \infty$、$\text{Var}[X_1] = v < \infty$ のとき、

任意の区間 $I\subset \mathbb{R}$ に対して、
$\displaystyle \lim_{n \to \infty} P\left(\frac{S_n - nm}{\sqrt{nv}} \in I\right) = \int_I \frac{1}{\sqrt{2\pi}}e^{-\frac{s^2}{2}}ds$
が成り立つ。

これは、$\displaystyle \frac{S_n-nm}{\sqrt{nv}}$ が $N(0,1)$ に分布収束（法則収束）することを意味する。²

ネットで見れる役に立ちそうな資料（未読）

リンクが失くなっている場合は、Wayback Machine で URL を検索してください

今回の内容確率論基礎重川一郎
より発展した内容も含まれる確率論講義ノート中島誠

参考文献

［新装版］確率の基礎から統計へ / 吉田伸生, ISBN:4535789428

ここにわかりやすくまとまっている ↩
分布収束の定義については、分布収束の定義の同値性を参照 ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up