大数の法則とは
昨今ビッグデータブームなどと言われて久しいですが、大きなサイズのデータを基にした統計量については一定の法則があります。ここでは大規模なデータの分析において欠かせない漸近理論についてその説明をし、コンピュータ上でプログラムによるシミュレーション実験をします。
漸近理論としてはまず確率の大定理である「大数の法則」があります。これについて考察してみます。
コイントスを例として考えてみる
表と裏が出る確率がそれぞれ 1/2 であるコインを投げて、その結果を集計します。 (※実際には社会調査や医療診断の結果を集計するわけですが、ここではわかりやすくコイントスで理論を説明します。)
2 種類の事象 (表と裏) のいずれかが生じ、その確率が一定である場合、これを ベルヌーイ試行 (Bernoulli trial) と呼びます。
表が出た場合を成功とします。ここでは表を 1 、裏を 0 となる確率変数 Xi を考えてみましょう。 10 回のコイントスで表が出る回数は
r = x_1 + x_2 + ... + x_{10}
となります。一般にコイントスの回数を n とするとき r/n は相対頻度となります。期待値は
E(r) = np = 5
となります。コイントスをして表が出る確率が 1/2 であることは自明ですから p = 0.5 は真の成功率です。
分散は
V(r) = np(1 - p) = 2.5
となります。
では、コイントスを一定回数繰り返して、成功度合いが (= 表が出る回数) が 0.4 〜 0.6 の範囲になる確率はどれくらいでしょうか?
コイントスを 10 回とすると
P(0.4 {\leq} r/10 {\leq} 0.6) = {\sum_{x=4}^{6}}f_{10(x)} = 0.65625
となります。これを例えば 100 回に増やすと
P(0.4 {\leq} r/10 {\leq} 0.6) = {\sum_{x=40}^{60}}f_{100(x)} = 0.96780
となり、きわめて高い確率 (96% くらい) で 0.4 から 0.6 に収束することがわかります。
すなわち ε がどのように小さい正の整数であっても
P(|r/n - 0.5 | {\leq} {\epsilon}) {\xrightarrow[]{}} 1, (n {\xrightarrow[]{}} {\infty})
となることが保証されます。
定理式
確率変数 X が正の値をとるとき、次のマルコフ不等式
P(X \geq a) {\leq} \frac{E[X]}{a} (a \gt 0)
が成立します。
大数の法則では、一般的に、大標本では、観測された標本平均を母集団の真の平均 (母平均) とみなしてよいとします。
中心極限定理とは
前回も軽く登場した中心極限定理について説明します。この定理は最尤推定量の漸近正統性を証明するときに中心的な役割を果たします。これは大まかに説明すると和 X1 + ... + Xn の確率分布の形は n が大きな値であるときは、大略正規分布と考えて良いということです。
ダイスを例として考えてみる
2 つの六面体ダイス (サイコロ) を振った時に出る目について考えてみます。たまたま 1 ゾロ (=2) や 6 ゾロ (=12) が出たとしても、何度も試行回数を増やしていくとその平均値の分布が釣鐘型の正規分布に近づいていきます。
定理式
定理を示すと n → ∞ のとき
\int_{a}^{b}\frac 1 {\sqrt2{\pi}} e^{-x^2/2}dx
となります。
二項分布の正規分布による近似
たとえば 40,000 回コイントスをして 20,400 回以上表が出ることはどれくらい起こりえることでしょうか。
表が出る確率は 1/2 で、単純に考えれば表が出るのは 40,000 回中 20,000 回です。偶然にも 20,400 回も表が出るということは、全体からするとたった 2 パーセントのブレですから、なんとなく偶然起こりそうな気もしてきます。果たしてそうでしょうか?
ここで各回の表、裏を Xi = 1,0 として n 回中の 1 の総回数の確率分布を求めます。
n = 40,000 で、 X は二項分布 Bi(40000, 1/2) に従います。ここで中心極限定理を応用します。
P(19600 \leq X_1 + ... + X_{40000} \leq 20400)\\
= P(-4 \leq (X_1 + ... + X_{40000} - 20000) / 100 \leq 4) \\
= {\phi}(4) - {\phi}(-4) \\
= 0.9999
したがって 40,000 回のコイントスで 20,400 回以上表が出る確率は 0.01 パーセント程度ですから、まず起こり得ないと言えることがわかりました。
次回は、実際に計算機上のシミュレーションで大数の法則を実験してみます。
参考
統計学入門 (基礎統計学)
http://www.amazon.co.jp/dp/4130420658
日本統計学会公式認定 統計検定1級対応 統計学 [単行本]
http://www.amazon.co.jp/dp/448902150X