前回 は内的*有限加法的測度空間からローブ測度を構成する方法を学びました。超準宇宙の有限加法的測度からホップの拡張定理および完備化を通して標準宇宙のルベーグ測度を構成することができます。このように、超準解析は「有限」の範囲で強力な表現力を持ちます。今回は、確率・統計をなるべく有限確率空間の議論で済ませることを考えましょう。積分だとか測度だとか、有限な期待値のない確率密度関数とか、ややこしい話はできるだけしたくありません。
有限確率論
確率変数
確率変数とは現実世界の対象を実数へ写す変換器のことです。例えば、「サイコロを振って 3 の目が出る」という(原子)事象は、そのままでは実数上で行われる確率統計の議論に載せることができません。なので確率変数という変換器を通して、この事象を 3 という実数へ写します。よくある「どのような値となるかがある確率法則によって決まる変数」という素朴な(?)定義はちょっと文意が通らなくてわけがわからないので、一旦忘れましょう。この時点では確率変数はただの関数であり、その名に反して確率的な要素は一切含んでいません。
ちゃんと定義してみると、確率空間 $(\Omega, \mathcal{F}, P)$ に対する確率変数 $X:\Omega \rightarrow {}^{\ast}\mathbb{R}$ は $\mathcal{F}$-可測な関数ということになります。すなわち、任意の $A_a = \left\{ x \in {}^{\ast}\mathbb{R} \mid x > a \right\} $ に対して $X^{-1}\left( A_a \right)\in\mathcal{F} $ が成り立ちます。連続の場合、標本点だけでなく事象に対し $X:2^\Omega \rightarrow 2^{{}^{\ast}\mathbb{R}}$ と一般化したものも同時に考えます。元の確率変数 $X_{point}$ に対して
$$X\left(A\right) = \bigcup_{\omega \in A} \left\{ X_{point}\left(\omega\right)\right\}$$
とするとうまく定義できます。
順序のある添字を持つ確率変数の列 $\left(X_t\right)_{t\in T}$ を確率過程と呼びます。
事象
先ほど「事象」という概念が出てきましたが、これについて説明していませんでした。事象というのは、標本空間の部分集合のことを指します。シングルトン(一点集合)であるような事象を原子事象と呼びます。標本空間の要素を標本点と呼びますが、この標本点たちはそれぞれ現実世界でのある状態を表します。具体的にどう表現されているかは確率論では問わないのですが、扱いやすく定義するなら標本点=命題でよいと思います。
有限確率空間
超準的な「単純化された確率論」では有限確率空間 $(\Omega, \mathcal{F}, P)$ を考えます。有限標本空間 $\Omega$ は $P(A)=0$ なる部分集合 $A\neq\emptyset$ を持たないとします。確率測度 $P$ は $P(\Omega)=1$ を満たし、確率質量関数 $f:U\rightarrow \left[0,1\right] (U \subseteq {}^{\ast}\mathbb{R})$ は標準的な場合と同様に
$$\left(f\circ X\right) (\omega) = P(\left\{\omega\right\})$$
$$\left( \sum_{\omega \in A} (f\circ X)(\omega) = P(A)\right)$$
なるものと考えます。言い換えれば、
$$f(x) = \left(P\circ X^{-1}\right)(x)$$
となるような関数です。$f$ が正であるような範囲を台(サポート)と呼びます。$P\circ X^{-1}$ を分布または誘導測度と呼びます1。離散(有限)確率空間で考えている場合は確率質量関数と分布が一致するので、ここまでは簡単です。ややこしいのは連続の場合の確率密度関数ですが、今考えているのは有限確率空間なので無視しましょう。累積分布関数を
$$F(x) = \sum_{y \leq x} f(y)$$
で定義しておきます。
期待値と分散
有限確率空間なので、**期待値(平均)**は
$$\mathbb{E}[X] = \sum_{\omega \in \Omega} X(\omega)\ P(\left\{\omega \right\}) = \sum_{x \in \mathrm{Im}(X)} x \ f(x) = \sum_{x \in \mathrm{Im}(X)} x \ dF(x)$$
を考えればよいわけです。先ほど述べたように、確率変数はただの関数なので、$\mathbb{E}$ は確率空間 $(\Omega, \mathcal{F}, P)$ に依存した作用となっています。分散についても同様に、
$$Var \! \left(X \right) = \sum_{\omega \in \Omega} {(X(\omega) - \mathbb{E}[X])}^2\ P(\left\{\omega \right\}) = \sum_{x \in \mathrm{Im}(X)} {(x - \mathbb{E}[X])}^2 \ f(x) = \sum_{x \in \mathrm{Im}(X)} {(x - \mathbb{E}[X])}^2 \ dF(x)$$
を考えるだけで済みます。期待値は実数上の関数 $h$ に対し、
$$\mathbb{E}[h(X)] = \sum_{x \in \mathrm{Im}(X)} h(x) \ dF(x) $$
と一般化することができます。
条件付き確率
条件付き確率は
$$P(B\mid A) = \frac{P(A\cap B)}{P(A)}$$
で定義されます。ここからワンステップで導かれるので定理と呼ぶのは少々違和感がありますが、よく知られるベイズの定理が成り立ちます。
$$P(B\mid A)=\frac{P(A\mid B)P(B)}{P(A)}$$
ほとんど確実に
「必ず」と「ほとんど確実に」
標準的な確率論では測度ゼロの事象は無視されるため、「ほとんど確実に」成り立つことを確率 $1$ で表現してしまいます。これでは確率 $1$ の事象が「必ず」成り立つのかわかりません。
任意の非無限小数 $\varepsilon \in \left(0,1\right]$ に対してある事象 $A_\varepsilon$ が存在し、$P(A_\varepsilon) \leq \varepsilon $ かつ $\varphi (\omega)$ が $\omega \notin A_\varepsilon$ について真であるとき内的性質 $\varphi $ はほとんど確実に成り立つといいます。すなわち、内的な $\varphi$ については
$$P\left(\left\{\omega \in \Omega \mid \varphi(\omega) \right\}\right) \approx 1$$
でほとんど確実に成り立つことを意味し、必ず成り立つことは
$$P\left(\left\{\omega \in \Omega \mid \varphi(\omega) \right\}\right) = 1$$
で表現して区別します。これが超準確率論と標準的な確率論の大きな違いのひとつです。
確率変数の収束
ここでは便宜上「確率変数の収束」という言葉を使いますが、(しつこいようですが)確率変数はただの関数です。よって、これだけ単体で見ても収束したりすることはありません。ここで見たい収束性は確率空間 $(\Omega, \mathcal{F}, P)$ の上での収束性であることに注意してください。
以下、$\nu$ を十分大きい無限大超自然数とします。
概収束
確率変数の列 $X_1,\cdots,X_\nu$ が概収束またはほとんど確実に収束するとは、任意の非無限小数 $\varepsilon$ に対してある事象 $A_\varepsilon$ が存在し、
$$P(A_\varepsilon) \leq \varepsilon$$
および
$$(\forall N: \mathrm{positive \ infinity})(\forall \omega \notin A_\varepsilon)(X_N(\omega) \approx X_\nu(\omega))$$
が成り立つことを意味します。これは $A_\varepsilon$ という無視できるような事象を除いて確率変数が収束することを表しています。
確率収束
確率変数の列 $X_1,\cdots,X_\nu$ が確率収束するとは、任意の無限大数 $N$ と非無限小数 $\varepsilon$ に対してある事象 $A_{N, \varepsilon}$ が存在し、
$$P(A_{N,\varepsilon}) \leq \varepsilon$$
および
$$(\forall \omega \notin A_{N,\varepsilon})(X_N(\omega) \approx X_{\nu}(\omega))$$
が成り立つことを意味します。こちらも $A_{N,\varepsilon}$ という無視できるような事象を除いて確率変数が収束することを表していますが、確率収束の場合は添字 $N$ にもこの事象が依存している(かもしれない)ので、ほとんど確実な収束よりも弱い条件となっています。ほとんど確実に収束する確率変数列は確率収束します。
分布収束
確率変数に対し、外的な同値関係 $\approx_w$ を以下で定義します。
$$X \approx_w Y \Longleftrightarrow (\forall g: \mathrm{finite \ and \ continuous})(\mathbb{E}[g(X)]\approx \mathbb{E}[g(Y)])$$
(異なる確率空間上のものであることを許容した)確率変数の列 $X_1,\cdots,X_\nu $ が分布収束または弱収束するとは、
$$(\forall N: \mathrm{positive \ infinity})(X_N \approx_w X_\nu)$$
が成り立つことを意味します。これは確率収束よりも弱い条件で、確率収束する確率変数列は分布収束します。
中心極限定理
標準的な確率論と同様、中心極限定理と呼ばれる定理が導出できます。ただし、正規分布は定理の主張には明示的に出てきません。有限確率論で現れるのは正規分布そのものではなく、正規分布と無限に近い離散分布です。
[中心極限定理]
独立同分布に従う $L^2$ 確率変数列 $X_1,\cdots,X_\nu$($\nu$ は正の無限大数)が期待値 $\mu$ と非無限小の分散 $\sigma^2$ を持つとする。
$$ \bar{X}_\nu = \frac{1}{\nu} \sum^{\nu}_{i=1} X_i $$
とすると、確率変数
$$Z=\frac{\bar{X}_\nu - \mu}{\sigma \ / \sqrt{\nu}}$$
は $L^2$ かつ他の確率変数たちと無限に近い。
確率変数 $X$ が $L^p$ であるとは、$\left| X \right|^p$ が $L^1$ であることを意味します。$X$ が $L^1$ であるとは、任意の正の無限大数 $N$ に対して $\mathbb{E}\left[\left|X - X^{(N)}\right|\right]$ が無限小であることを意味します。ここで、$X^{(N)}$ は
$$X^{(N)}(\omega) = X(\omega)\ \mathrm{if}\ \left|X(\omega)\right| \leq N\ \mathrm{else}\ 0$$
で定義されています。
今回は超準確率論の初歩を導入しました。次回予告が信用ならなくて申し訳ありませんが、次回は超準確率論の続きを書きます。できれば超準確率論バージョンの中心極限定理の証明もまとめておきたいですが、例のごとくそれは体力があったらにします。
参考文献
- C.J. Geyer, Radically Elementary Probability and Statistics. Technical Report No. 657, School of Statistics, University of Minnesota, 2007.
- 超準解析の魔導書