大数の法則(Low of Large Number)とは
同一な分布から生成した確率変数$X_1, X_2, \cdots, X_n$の算術平均$\frac{1}{n}\sum X_i$がnを大きくしていけば母平均に近づいていくという法則。弱法則と強法則
大数の法則には弱法則と強法則の2種類がある。名前の通り、強法則のほうがより強いことを言っている。一般的にただただ「大数の法則」と言われたら強法則を指す気がする。(気のせいかも)。この2つの法則の違いは、確率変数列の収束性の違いなのだがそれがどうもわかりにくい。理解した気がするの頑張って解説します。大数の弱法則
仮定:$X_1, X_2, \cdots, X_n$が互いに独立で, すべての$i$の$E[x_i], V[X_i]$が等しい主張:$\forall\epsilon$に対して
$$\lim_{n \to \infty}P(|\frac{X_1 + X_2 + \cdots + X_n}{n} - \mu| < \epsilon) = 1$$
つまり算術平均は, 母平均$\mu$に確率収束する。
大数の強法則
仮定:大数の弱法則と同じ(4次のモーメントの存在の仮定が必要かも?)主張:
$$P(\lim_{n \to \infty}\frac{X_1 + X_2 + \cdots + X_n}{n} - \mu) = 1$$
つまり算術平均は母平均に概収束する。
確率変数列の収束性について
弱法則と強法則の違いを理解するためには,確率収束と概収束の違いについて理解する必要があります。(これが理解できれば弱法則と強法則の違いも理解できるはず) その前にひとつだけ準備をします。- 確率変数列の下極限
- 定義:事象列{$X_1, X_2, \cdots,$}のある番号以降すべての事象に含まれる集合のこと
- 数式:$$\varliminf_{n \to \infty}X_n = \liminf_{n \to \infty}X_n = \lim \cup_{n = 1}^{\infty}\cap_{m = n}^{\infty}X_m$$
- 気持ち: 表したい集合を書き下せばわかりやすい
$$ (X_1 \cap X_2 \cap X_3 \cap \cdots) \cup (X_2 \cap X_3 \cap X_4 \cap \cdots) \cup (X_3 \cap X_4 \cap X_5 \cap \cdots) \cup \cdots $$
第一項目は一番目以降からすべての事象に含まれている集合、第二項目は二番目以降からすべての事象に含まれている集合、第三項目は三番目以降に含まれている集合...これの和集合を取ればOK。これをかっこよく書くと定義の数式のようになる。
ここから確率収束と概収束を下の集合をそれぞれ定義していきます。
任意の$\epsilon > 0$に対して事象$B_{m\epsilon}$と$A_{m\epsilon}$を次のように定義します。
$$B_{m\epsilon} = \lbrace |X_m(\omega) - X(\omega) < \epsilon| \rbrace, m = 1, 2, 3, \cdots $$
$$A_{m\epsilon} = \varliminf_{m \to \infty}B_{m\epsilon}$$
-
確率収束
- 任意の$\epsilon > 0$に対して
$$\lim_{n \to \infty}P(B_{m\epsilon}) = 1$$が成り立つとき$X_n$は$X$に確率収束する
- 任意の$\epsilon > 0$に対して
-
概収束
- 任意の$\epsilon > 0$に対して$$P(A_{m\epsilon}) = P(\varliminf_{m \to \infty}B_{m\epsilon}) = \lim_{m \to \infty}P(B_{m\epsilon}) = 1$$ が成り立つとき$X_n$は$X$に概収束する。(limと確率の入れ替え可能、ただし証明はムズかしい。)
- $$P(\lim_{n \to \infty}X_n = X) = 1$$が成り立つとき概収束すると定義してある本も多々ありますが上の定義と同値です。
同値であることの証明は数列の収束の定義、つまり$\epsilon-N$論法について考えれば自明かなと思います。つまり$\lim_{n \to \infty}X_n = X$とは任意の正の$\epsilon$に対して、ある番号$N$が存在して、$n \geq N$の自然数$n$に対して$|X_n - X| < \epsilon$が成り立つことが数列の収束の定義でした。これは$B_{m\epsilon}$の下極限の定義と全く同じことを表しています。
上の定義のほうが確率収束との違いがわかりやすいと思うので以降は上の定義を使います。
確率収束と概収束の違い
$\varliminf_{m \to \infty}B_{m\epsilon}$の定義を思いだしましょう。冗長になりますが書き下すと次のようになります。\begin{align}
\varliminf_{m \to \infty}B_{m\epsilon} &= (B_{1\epsilon} \cap B_{2\epsilon} \cap \cdots) \cup (B_{2\epsilon} \cap B_{3\epsilon} \cap \cdots) \cup (B_{3\epsilon} \cap B_{4\epsilon} \cap \cdots) \cup \cdots \\
&=[\lbrace |X_1(\omega) - X(\omega) < \epsilon| \rbrace \cap \lbrace |X_2(\omega) - X(\omega) < \epsilon| \rbrace \cap\cdots]\cup\cdots
\end{align}
日本語に直すと「ある番号以降の$m$について$\lbrace |X_m(\omega) - X(\omega) < \epsilon| \rbrace$が常に成り立つ」ということでした。
概収束の定義は$$P(\varliminf_{m \to \infty}B_{m\epsilon}) = 1$$
なのでこれは、「任意の$\epsilon>0$を定めると、ある番号が存在して(てきとうに$N$とおいておきます)$m$が$N$より大きい間ずっと$\lbrace |X_m(\omega) - X(\omega) < \epsilon| \rbrace$が成り立つ確率が1」ということです。ポイントは、Nより大きい間「ずっと」です。ここが確率収束(大数の弱法則)との大きな違いになります。
確率収束の定義は$$\lim_{n \to \infty}P(B_{m\epsilon}) = \lim_{m \to \infty}P(\lbrace |X_m(\omega) - X(\omega) < \epsilon| \rbrace) = 1$$
でした。これは、「極限で初めて$|X_m(\omega) - X(\omega) < \epsilon|$になる確率が1になるだけで、極限を取らなければ成り立たなくてもOKです(たぶん。)」
概収束は「ある$N$より大きい間ずっと$|X_m(\omega) - X(\omega) < \epsilon|$が成り立つ確率は1」で、確率収束は「極限を取って初めて$|X_m(\omega) - X(\omega) < \epsilon|$になる確率が1でもok」ということです。ですから概収束のほうが収束性が強いのもわかると思います。
確率収束するが概収束しない例
標本空間$\Omega\in [0, 1]$とする。確率変数$X_n$を次のように定義します。X_1 = \left\{
\begin{array}{ll}
1 & (0 \leq \omega \leq \frac{1}{2}) \\
0 & (その他)
\end{array}
\right.\\\\
X_2 = \left\{
\begin{array}{ll}
1 & (\frac{1}{2} < \omega \leq 1) \\
0 & (その他)
\end{array}
\right.\\\\
X_3 = \left\{
\begin{array}{ll}
1 & (0 < \omega \leq \frac{1}{4}) \\
0 & (その他)
\end{array}
\right.\\\\
X_3 = \left\{
\begin{array}{ll}
1 & (\frac{1}{4} < \omega \leq \frac{1}{2}) \\
0 & (その他)
\end{array}
\right.\\\\
X_3 = \left\{
\begin{array}{ll}
1 & (\frac{1}{2} < \omega \leq \frac{3}{4}) \\
0 & (その他)
\end{array}
\right.
こんな感じで、幅を小さくしていきながら、横にずらしていきます。
幅がどんどん小さくなるので$n \to \infty$で確率が1になるところは一本の直線になります。直線の確率は0、すなわち
$$lim_{n \to \infty}P(|X_n - 0| < \epsilon) = 1$$となり確率収束します。
次に概収束ですが、nを大きくしても確率1のところが回ってきます。つまりある$N$以降のすべての自然数$m$に対して$|X_n - 0| < \epsilon$となる確率が1にはなりません。したがって概収束しません。
まとめ
大数の弱法則と強法則、つまり確率収束と概収束の違いはなかなかわかりにくいです。(自分もこれであっているのかわからない。)なかなか自分にしっくりくるものがなくて相当悩みました。なんとかわかった気になれたので良かったかなと思います。(某高専のゼミきつすぎる。)間違えがあればご指摘のほどよろしくおねがいします。参考文献