はじめに
AI・機械学習等の機運が高まる昨今、それら文献等では確率を使ったものが頻繁に現れます。これらでは確率論の基本は半ば常識のように用いられています。本記事では確率論の基礎となる事項について簡単にまとめておきたいと思います。
なお、文献によっては記法等異なる場合がありますが、本記事では数学としての確率論の分野で一般的な記法の1つを採用し、記述することにします。
確率空間
何といっても、まず確率を考える対象として確率空間を定めなければ先に進みません。
確率空間とは、集合 $\Omega$、$\Omega$ の $\sigma$-加法族 $\mathcal{F}$、$\mathcal{F}$ 上の確率測度 $P$ の3つ組 $(\Omega,\mathcal{F},P)$ のことをいいます。
つまり、$\mathcal{F}$について、
- $\emptyset\in\mathcal{F}$,
- $A\in\mathcal{F}$ ならば $A^c:=\Omega\setminus A\in\mathcal{F}$,
- $A_1,A_2,\cdots\in\mathcal{F}$ ならば、$\bigcup_{j=1}^\infty A_j\in\mathcal{F}$,
が成り立ち、$P$については、
- $P(\emptyset)=0$, $P(\Omega)=1$,
- $A_1,A_2,\cdots\in\mathcal{F}$ かつ $A_i\cap A_j=\emptyset~(i\neq j)$ならば、$$P\left(\bigcup_{j=1}^\infty A_j\right)=\sum_{j=1}^\infty P(A_j)$$
が成り立ちます。
確率変数
測度論の言葉でいうならば、確率空間上で定義された可測関数のことをいいます。
すなわち、$X\colon\Omega\to\mathbb{R}$ が(実数値)確率変数であるとは、任意の $a\in\mathbb{R}$ に対し、
\begin{align*}
\{X>a\}:=\{ \omega\in\Omega ~;~ X(\omega)>a \}\in\mathcal{F}
\end{align*}
が成り立つことです。
多次元の $\mathbb{R}^d$-値確率変数の場合は、各成分ごとに確率変数であるときをいいます。
一般の確率変数
一般の場合の確率変数は次のように定義されます。
$(S,\mathcal{B})$ を可測空間とするとき、確率変数 $X\colon\Omega\to S$ が $S$-値確率変数であるとは、任意の $A\in\mathcal{B}$ に対し、
\begin{align*}
\{X\in A\}:=\{\omega\in\Omega~;~X(\omega)\in A\}\in\mathcal{F}
\end{align*}
が成り立つことです。
以後、単に確率変数という場合は、実数値確率変数を表すものとします。
例
これまで非常に抽象的なので、例を挙げたいと思います。
- $(\Omega,\mathcal{F},P)=([0,1),\mathcal{B}([0,1)),\lambda)$ は確率空間で、$X\colon \Omega\ni\omega\mapsto\omega\in [0,1)$ は区間 $[0,1)$ 上の一様分布確率変数です。ただし、$\mathcal{B}([0,1))$ は $[0,1)$ のボレル集合族を表し、$\lambda$ は1次元ルベーグ測度とします。
- $(\Omega,\mathcal{F},P)$を次のように定義すると、確率空間です。
\begin{align*}
& \Omega = \{ 0,1 \},\\
& \mathcal{F} = \{\emptyset, \{0\}, \{1\}, \{0,1\} \},\\
& P(\{0\})=p, \quad P(\{1\})=q, \quad p,q\geq 0, \quad p+q=1.
\end{align*}
確率変数 $X(\omega)=\omega$ とすると、これは、表裏がそれぞれ確率 $p$, $q$ で出るコイントスを表しています。
確率変数の分布
確率変数 $X$ に対し、集合関数 $\mathcal{B}(\mathbb{R})\ni A\mapsto P(X\in A)\in [0,1]$ は可測空間 $(\mathbb{R},\mathcal{B}(\mathbb{R}))$ 上の確率測度となります。この確率測度を $X$ の分布といい、 $P_X$ とかきます。
期待値
確率変数 $X$ の期待値とは、$X$ の確率測度 $P$ による(ルベーグ式の)積分です。すなわち、確率変数 $X$ の期待値 $E[X]$ は次で定義されます。
\begin{align*}
E[X] &:= \int X(\omega) P(d\omega).
\end{align*}
確率変数 $X$ の分布 $P_X$ を使えば、$$E[X]=\int xP_X(dx)$$とかけます。
ゆえに$X$ が連続型確率分布に従い、確率密度関数を $p(x)$ とするとき、すなわち $X$ の分布 $P_X(dx)=p(x)dx$ であるとき、$$E[X]=\int xp(x)dx$$ となります。
$X$ が離散型確率分布に従う場合、$P_X=\sum_jP(X=a_j)$ であるので、$$E[X]=\sum_j a_jP(X=a_j)$$となります。
つづく
次回は、条件付き期待値について書きたいと思います。
これも機械学習系の論文なんかでよく見るので押さえたいところです。