で確率空間を定義したので、次に確率変数を定義したいと思います。
\newcommand{\borel}{{\mathcal{B}(\mathbb{R})}}
\newcommand{\R}{\mathbb{R}}
可測写像
確率空間$(\Omega,\mathcal{F},p)$から$(\Omega',\mathcal{F}',p')$の中への写像(全射とは限らない写像)$X:\Omega \rightarrow \Omega'$が
E' \in \mathcal{F}' \Rightarrow X^{-1}(E') \in \mathcal{F}
であるとき、$X$は可測であるといいます。ちなみに
X^{-1}(E')= \bigcup_{\omega' \in E'} \left\{ \omega \in \Omega \mid X(\omega) = \omega' \right\}
です。よりまとめて書くなら
X^{-1}(\mathcal{F}') \subset \mathcal{F}
です。
また、$X$が$\mathcal{F},\mathcal{F}'$について可測関数であることを
X \in \mathcal{F}|\mathcal{F}'
と表します。
推移律
$f:\Omega_1 \rightarrow \Omega_2,g:\Omega_2 \rightarrow \Omega_3$が可測写像ならば、$g\circ f: \Omega_1 \rightarrow \Omega_3$も可測です。
σ加法族化との交換
(σ加法族とは限らない)$\Omega'$の部分集合族$\mathcal{A}$に対して
X^{-1}(\sigma(\mathcal{A})) = \sigma(X^{-1}(\mathcal{A}))
つまり、
A \in \mathcal{A} \Rightarrow X^{-1}(A) \in \mathcal{F}
ならば$X \in \mathcal{F}|\sigma(\mathcal{A})$となります。
確率変数
特に可測関数$X:(\Omega,\mathcal{F},p) \rightarrow (\mathbb{R},\mathcal{B}(\mathcal{R}),p_F)$を単に確率変数と言います。
これになぞらえて、一般の可測写像$X:\Omega \rightarrow \Omega'$を$\Omega'$上の変数、$\Omega'$上の値をとる変数などと言うこともあります。
可測写像が生成するσ加法族
可測写像の定義より、可測写像$X$が生成するσ加法族を
\sigma[X] = \{X^{-1}(E) \mid E \in \mathcal{F}'\}
で定義します。
像測度(押し出し測度、確率法則)
確率空間$(\Omega,\mathcal{F},p)$とσ加法族が定まった集合$(\Omega',\mathcal{F}')$の間の可測写像$X \in \mathcal{F}|\mathcal{F}'$ を用いて、$(\Omega',\mathcal{F}')$上に確率測度$p_X:\mathcal{F}' \rightarrow [0,1]$を
\forall E' \in \mathcal{F}': p_X(E') = p(X^{-1}(E'))
で定めることができます。これを$X$による像測度と言います。 $X_* p$と書くこともあります。他にも確率法則や押し出し測度と呼ぶこともあります。
同一分布に従う
2つの可測写像
X,Y \in \mathcal{F}|\mathcal{F}'
の確率法則が等しいとき:
p_X = p_Y
$X$と$Y$は同一分布に従うと言います。
確率変数の分布関数
確率変数$X \in \mathcal{F}|\borel$の像測度は$\R$上の確率測度なので、ルベーグ・スチルチェス積分になっていて対応する分布関数
F_X(x) = p_X((-\infty,x])
が存在します。また$p_x$がルベーグ測度のもとで絶対連続ならば確率密度関数$f_X(x)$:
F_X(x) = \int_{-\infty}^x f_X(x) d\mu(x)
も存在します。
確率変数と情報量
確率変数が生成するσ加法族はその確率変数の返り値から分かる情報量を表しています。例えば、目隠しをして次の4種類のお酒のうち、ランダムに1つを飲んで何を飲んだか答えてもらうという試行をします。確率空間は
\begin{align}
\Omega &= \{ \text{ロマネコンティ},\text{ウニコ},\text{久保田},\text{新政} \} \\
\mathcal{F} &= \{ S \mid S \subset \Omega \} \\
\forall \omega &\in \Omega: p(\{\omega\}) = \frac{1}{4}
\end{align}
です。ここで次の2種類の飲んだお酒と回答の間の可測写像を考えます。
$X$は素人に当ててもらった回答で、素人は赤ワインか日本酒かの違いしか分かりません。よって、$X$は$ (\text{ワイン},\text{日本酒})$上の確率変数です。
一方、$Y$ではソムリエに当ててもらった回答で、ソムリエは4つ全ての違いが分かるので$Y$は$\Omega$上の確率変数です。つまり、
\begin{align}
X:& \Omega \rightarrow \{\text{ワイン},\text{日本酒}\} \\
Y:& \Omega \rightarrow \Omega \quad \text{identity map}
\end{align}
です。このとき、それぞれの可測写像が生成するσ加法族は
\begin{align}
\sigma[X] &= \left\{ \Omega, \{ \text{ロマネコンティ},\text{ウニコ} \},\{\text{久保田},\text{新政} \}, \varnothing \right\} \\
\sigma[Y] &= \left\{ \Omega, \{\text{ロマネコンティ},\text{ウニコ} \},\{\text{ロマネコンティ}\},\{\text{ウニコ} \}, \{\text{久保田},\text{新政} \},\{\text{久保田}\}, \{\text{新政} \}, \varnothing \right\}
\end{align}
となって、$\sigma[Y]$の方がより細かい集合族になっています。同じ可測集合の元はそれらが確率変数の結果からは区別できないことを意味し、σ加法族の細かさはどれだけの情報がその確率変数から得られたかを示しています。
別の視点で観れば、確率的な要素を含む対象に対する測定方法が確率変数であり、確率変数が生成するσ加法族の細かさはその測定精度を表しているとも言えます。
確率変数で条件づけられた集合の確率の表示
$\omega \in \Omega$に関する条件$C(\omega)$を満たす集合の確率を
p(C(\omega)) = p(\{\omega \in \Omega \mid C(\omega)\})
のように表すことがあります。
例えば
p(X(\omega) = 1) = p(\{\omega \in \Omega \mid X(\omega) = 1\}) = p(X^{-1}(1))
や状態$\omega$以外にパラメーターを含む確率変数$X(t,\omega)$に対して
p(\forall \epsilon>0: \exists M > 0: t>M \Rightarrow |X(t,\omega) - b|<\epsilon ) = p(\{ \omega \in \Omega \mid \forall \epsilon>0: \exists M > 0: t>M \Rightarrow |X(t,\omega) - b|<\epsilon \} )
などのように書き表します。
期待値の計算
定義関数
可測集合$E \in \tilde{\mathcal{F}}$に対して、定義関数を
\mathbb{I}_{E}(x) = \begin{cases}
1 \quad x \in E \\
0 \quad x \notin E
\end{cases}
とします。
可測単関数の積分
可測集合$E_1,E_2,\cdots,E_n \in \tilde{\mathcal{F}}$と実数$a_1,a_2,\cdots,a_n \in \mathbb{R}$に対して、
を用いて
\phi(x) = \sum_{i=1}^n a_i \mathbb{I}_{E_i}(x)
と表される可測関数$\phi$を可測単関数と言います。
可測集合$A \in \tilde{\mathcal{F}}$上の可測単関数$\phi$の積分を
\int_A \phi(\omega) dp(\omega) = \int_A \phi(\omega) d\omega \stackrel{\mathrm{def}}{=} \sum_{i=1}^n a_i p(E_i\cap A)
で定義します。
確率変数の積分
非負の場合
非負の確率変数$X:\Omega \rightarrow [0,\infty]$に対して単関数の列
\phi_1(\omega) \leq \phi_2(\omega) \leq \cdots \leq \phi_n(\omega) \leq \cdots \\
\lim_{n\rightarrow \infty}\phi_n(\omega) = X(\omega)
を考えます。このとき、可測集合$A \in \tilde{\mathcal{F}}$上の$X$の積分を
\int_A X(\omega) dp(\omega) \stackrel{\mathrm{def}}{=} \lim_{n\rightarrow \infty} \int_A \phi_n(\omega) dp(\omega)
と定義します。
一般の場合
X_+(\omega) = \max(0,X(\omega)) \\
X_-(\omega) = \min(0,X(\omega))
とすると、$X_+,-X_-$は非負なので先ほど定義した積分で計算できます。よって
\int_A X(\omega) dp(\omega) = \int_A X_+(\omega) dp(\omega) - \int_A \left[-X_-(\omega)\right] dp(\omega)
と計算できます。そして、
\left|\int_A X(\omega) dp(\omega)\right|<\infty
のとき、$X$は(ルベーグ積分の意味で)可積分であると言います。測度$p$のもとで可積分である関数全体の集合を$\mathcal{I}(p) \subset C(\Omega,\mathbb{R})$と表します。
期待値
以上から確率変数$X$の期待値は
E[X;A] = \int_A X(\omega) dp(\omega)
となります。特に
E[X] = E[X;\Omega]
と表します。また、分散は
\mu = E[X] \\
V[X] = E[(X-\mu)^2]
と表記することにします。
ルベーグ・スチルチェス積分
この積分はルベーグ・スチルチェス積分になっていて、ルベーグ・スチルチェス積分の性質より絶対連続ならば、分布関数$F$を用いて次のようにルベーグ積分に書き直せます:
\int_\Omega X(\omega) dp(\omega) = \int_\Omega X(\omega) \frac{d F}{d\omega} d\omega = \int_\Omega X(\omega) f(\omega) d\omega
ここで、$f$は確率密度関数です。ちなみに、分布関数は積分論の文脈では有界変動関数と呼ばれています。
例えば、正規分布の場合は$\Omega = \mathbb{R}$で
\int_\mathbb{R} X(x) dp(x) = \frac{1}{\sqrt{2\pi}\sigma} \int_\mathbb{R} X(x)e^{-\frac{(x-\mu)^2}{2\sigma^2}} dx
という見慣れた形に直せます。(特に$X$がリーマン可積分なら、これは普通のリーマン積分です。)
イメージ的には普通に
\int_\Omega X(\omega(F)) dF \rightarrow \int_\Omega X(\omega) f(\omega) d\omega
と変数変換してるだけですね($p$と$F$は同じ等価なので)。
厳密には次のラドンーニコディム微分を使って変数変換しています。
ラドン-ニコディムの定理
$(\Omega,\mathcal{F})$上の2つ有界な測度$\mu,\nu$において$\nu$が$\mu$上で絶対連続であるとします。このとき、
\exists X \in \mathcal{F}|\borel: \nu(A) = \int_A X(\omega) d\mu(\omega)
であり、この$X$をラドン-ニコディム微分
\frac{d \nu}{d \mu} = X
と呼びます。例えば、確率密度関数はルベーグ測度$\mu$に対する絶対連続な確率測度$p \ll \mu$のラドン-ニコディム微分です。
ラドン-ニコディム微分の性質
\begin{align}
\mu_1 \ll \nu, \mu_2 \ll \nu &\Rightarrow \frac{d (\mu_1 + \mu_2)}{d \nu} = \frac{d \mu_1}{d \nu} + \frac{d \mu_2}{d \nu} \quad a.e. \ w.r.t. \ \nu \\
\mu \ll \nu, \nu \ll \mu &\Rightarrow \frac{d \mu}{d \nu} = \left( \frac{d \nu}{d \mu} \right)^{-1} \\
\lambda \ll \mu \ll \nu &\Rightarrow \frac{d \lambda}{d \nu} = \frac{d \lambda}{d \mu} \frac{d \mu}{d \nu}
\end{align}
像測度を用いたとき
可測写像$X:\Omega \rightarrow \Omega'$を用いて、$\Omega$上の確率測度$p$に対して$\Omega'$上の像測度$p_X$を定めると、
\int_{\Omega'} f(\omega') p_X(\omega') = \int_{\Omega} f\circ X(\omega) p(\omega)
と変換できます。
返り値が複素数の場合
$X:\Omega \rightarrow \mathbb{C}$のとき、
\int_A X dp = \int_A Re[X] dp + i \int_A Im[X] dp
と計算できます。
多変数の場合
直積空間$(\Omega_1\times\Omega_2,\mathcal{F}_1\otimes\mathcal{F}_2,p_1\times p_2)$上の確率変数$X:\Omega_1\times\Omega_2 \rightarrow \mathbb{R}$について、
\int_{\Omega_1\times\Omega_2} X(\omega_1,\omega_2) d(p_1\times p_2)(\omega_1,\omega_2)
を計算します。次のフビニの定理が使えるときは分解して逐次積分することができます。
フビニの定理
$|X|$が$\Omega_1\times\Omega_2$上で可積分ならば
\begin{align}
\int_{\Omega_1\times\Omega_2} X(\omega_1,\omega_2) d(p_1\times p_2)(\omega_1,\omega_2) &=
\int_{\Omega_1} \left[ \int_{\Omega_2} X(\omega_1,\omega_2) dp_2(\omega_2) \right] dp_1(\omega_1) \\
&= \int_{\Omega_2} \left[ \int_{\Omega_1} X(\omega_1,\omega_2) dp_1(\omega_1) \right] dp_2(\omega_2)
\end{align}
零集合とa.e.
ゼロ集合上での積分はすべて$0$になるので、実はルベーグ積分に関する諸は命題$N \in \mathcal{N}^p$上で満たされていなくても問題ありません。このことを表すために、しばしばa.e.(=almost everywhere)という断り文句がつきます。確率空間を明示するときには私の記事ではa.e. $\Omega$ w.r.t. $p$などと表すことにします。
Lp空間
\int_\Omega |X(\omega)|^p dp(\omega) < \infty
となる 確率変数全体のなす線形空間を$L_p(\Omega,\mathcal{F},p)$と表します。
期待値の性質
線形性
E[aX+bY] = aE[X] + bE[Y]
単調収束性
0 \leq X_1 \leq X_2 \leq \cdots \leq X_n \leq \cdots \\
\lim_{n\rightarrow \infty} X_n(\omega) = X(\omega) \quad (a.e.)
であるとき、
\lim_{n\rightarrow \infty} E[X_n] = E[X]
ファトゥの補題
X_n \geq 0 \Rightarrow E[\liminf_n X_n] \leq \liminf_n E[X_n]
優収束定理
X_n \xrightarrow{n \rightarrow \infty} X \quad (a.e.) \\
と非負な可積分関数$Y \geq |X_n|$に対して
\lim_{n \rightarrow \infty} E[X_n] = E[Y]
微分と積分の交換
X:(\Omega,\mathbb{R}) \rightarrow \mathbb{R}
が
- 各点$\omega \in \Omega$で$X(\omega,t)$で微分可能
- $\partial X(\omega,t)/\partial t$が可積分
- ある非負の可積分関数$Y$が存在して、$|\partial X(\omega,t)/\partial t| \leq Y$
のとき、
X_h(\omega) = \frac{X(\omega,t+h) - X(\omega,t)}{h}
とすれば、優収束定理より
\lim_{h \rightarrow 0} \int X_h(\omega,t) dp(\omega) = \int \frac{\partial X(\omega,t)}{\partial t} dp(\omega)
つまり
\frac{\partial}{\partial t} \int X(\omega,t) dp(\omega) = \int \frac{\partial X(\omega,t)}{\partial t} dp(\omega)
となります。
独立性
確率変数の独立性
確率変数の集合
\{X_\lambda\}_{\lambda \in \Lambda}
が独立であるとは、各確率変数が生成するσ加法族
\{\sigma[X_\lambda]\}_{\lambda \in \Lambda}
が独立であることを指します。
独立同一分布に従う
独立な確率変数の列
\{X_\lambda\}_{\lambda \in \Lambda}
が同一分布に従うとき:
\forall i,j \in \Lambda: p_{X_i} = p_{X_j}
これらの確率変数は独立同一分布に従うと言い、
\{X_\lambda\}_{\lambda \in \Lambda} \quad i.i.d.
などと表します。
同時分布関数
x_\lambda = X_\lambda(\omega) \quad (\omega \in \Omega)
として、$X_1,X_2,\cdots$の同時分布関数
F_{X_1,X_2,\cdots }(x_1,x_2,\cdots) = \prod_{\lambda \in \Lambda } p((-\infty,x_\lambda])
は、$X_\lambda$が互いに独立なとき各$X_\lambda$の分布関数$F_{X_\lambda}$を用いて、
F_{X_1,X_2,\cdots }(x_1,x_2,\cdots) = \prod_{\lambda \in \Lambda } F_{X_\lambda}(x_\lambda)
と分解できます。
確率密度関数
同時確率密度関数
F_{X_1,X_2,\cdots,X_n }(x_1,x_2,\cdots x_n) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f_{X_1,\cdots,X_n }(t_1,\cdots,t_n)dt_1,\cdots,dt_n
が存在するとき、$X_i$が互いに独立ならば、同様に各変数の確率密度変数
F_{X_i}(x) = \int_{-\infty}^x f_{X_i}(t)dt
を用いて、
f_{X_1,\cdots,X_n }(t_1,\cdots,t_n) = \prod_i f_{X_i}(t_i)
となります。
乗法定理
$X_i$が互いに独立ならば、期待値は
E\left[ \prod_i X_i \right] = \prod_i E[X_i]
となります。
モーメント
E[X^n]
あるいは
E[(X-\mu)^n]
はモーメントと呼ばれ、確率分布を決定づける量になっています。
特性関数
\phi_X(t) = E[e^{itX}] = \sum_n \frac{(it)^n}{n!} E[X^n]
を特性関数と言います。$|e^{itX}| \leq 1$なのでこれは常に可積分です。
すると、各モーメントは
E[X^n] = (-i)^n \left( \frac{\partial^n \phi_X}{\partial t^n} \right)_{t=0}
となります(微分と積分の交換条件も満たしています)。また、分布関数$F$(よって確率測度$p$)と特性関数は1-1対応していることが知られています。
参考資料
- 伊藤清「確率論」岩波書店