普遍的に存在する正規分布の謎
世の中にあるほとんどの分布からランダムな試行を繰り返した結果(人間の身長 、サイコロの出目の合計数 、雨粒の大きさ... ) は、なぜか正規分布近似ができ、それによって統一的な扱いをすることが可能である...
そしてその根拠となるのは、中心極限定理であって、平均や分散が存在する同一分布からの独立な試行の平均値は、モーメント関数を計算して極限をとると正規分布のそれに収束するため、世の中のあらゆるランダムな事象はその背景に正規分布が潜んでいる云々云々etc... といった説明が一般的な数学書ではなされている。
この説明、確かに数学的には正しいのですが、直感的にははぐらかされているというか、あまりしっくりこないのは自分だけでしょうか?
モーメント関数が極限で一致するから正規分布?直感的には全くピンときません。
なぜいきなり$exp$とか$√2π$とかが出てくるのでしょうか??
実は、正規分布は
1. 誤差は全て独立に同じ分布に従う
2. 誤差が0のときの一番ノーマルな状態の確率が最大となる
3. 小さすぎるのと大きすぎる誤差は等しい確率でおこる
4. 極端なイレギュラーが起こる確率は0に収束していく
だけから、導くことができるのです。
確かにこう聞くと、人間の身長 、サイコロの出目の合計数 、雨粒の大きさも全て、1,2,3,4の条件を満たしている気がします。
人間の身長は平均身長付近が最も人数が多く、それより大きい人も小さい人も同じぐらいの割合でいて、ギネスに記録されるような極端な場合の確率は0に近づいていくでしょう。
サイコロも100回投げれば平均値の350付近が最も多く、連続で1を100回出したとか6を100回出した場合は現実的ではありません。
次に、上記の1,2,3,4の条件だけから実際に正規分布を導いていきたいと思います。
直感的な4つの条件のみから導く正規分布
ある対象を複数回計測する場合、真の値を $\ \theta $ とし、$\ x_i $ ( i 回目の計測値)と表すと、各計測には誤差 $\ \varepsilon_i $ が生じるため、
$
x_i = \theta + \varepsilon_i
$
と書くことができます。
$\ n $ 回の計測結果 $( x_1, x_2, \dots, x_n )$ が得られたとします。各計測における誤差は
$
\varepsilon_i = x_i - \theta
$
と表され、これらは1. の条件より全て独立で同じ分布に従うと仮定されています。
この誤差が従う確率密度関数を $\ f(\varepsilon) $ とすると、全体の尤度(観測データが得られる確率)は
$
L(\theta) = \prod_{i=1}^{n} f(x_i - \theta)
$
となります。対数をとると、
$
\ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i - \theta)
$
と書くことができます。
ここで、2. 最もノーマルな値が最も起こりやすい、という仮定を思い出しましょう。
すなわち、
$
\hat{\theta} = \mu = \frac{1}{n}\sum_{i=1}^{n} x_i
$
とすることで、対数尤度を $( \theta )$ で微分してゼロと置いたとき、
$
-\sum_{i=1}^{n} \frac{f'(x_i - \theta)}{f(x_i - \theta)} = 0
$
となります。ここで、
$
\phi(\varepsilon) \equiv \frac{f'(\varepsilon)}{f(\varepsilon)}
$
と置くと、上記の条件は
$
\phi(x_1 - \theta) + \phi(x_2 - \theta) + \cdots + \phi(x_n - \theta) = 0
$
と表されます。3. 小さい誤差と大きい誤差が起こる確率は等しい、の条件から、この式が恒等的に成立するためには、$\ \phi(\varepsilon) $ は誤差 $\ \varepsilon $ に対して線形、すなわち
$
\phi(\varepsilon) = c,\varepsilon
$
($\ c $ は定数)という形でなければならないと考えられます。
ここで、定義より
$
\frac{f'(\varepsilon)}{f(\varepsilon)} = c,\varepsilon
$
と書けます。両辺を $( \varepsilon )$ で積分すると、
$
\ln f(\varepsilon) = \frac{c}{2}\varepsilon^2 + d
$
($( d )$ は積分定数)となり、指数をとることで
$
f(\varepsilon) = k,\exp\Bigl(\frac{c}{2}\varepsilon^2\Bigr)
$
と表されます。ここで $( k = e^d )$ としています。
誤差が大きくなると $\ f(\varepsilon) $ が0に収束する必要があります。4. デカすぎる誤差が生じる確率は0にならなければならない、ということですね。そのため、上記の式が有限な値を与えるためには $ c < 0 $ でなければなりません。分かりやすくするために、$\ c' = -c \ $($\ c' > 0 $)と置き換えると、
$
f(\varepsilon) = k,\exp\Bigl(-\frac{c'}{2}\varepsilon^2\Bigr)
$
となります。
次に、この関数が確率密度関数であるためには全区間で積分して1になる必要があります。すなわち、
$
\int_{-\infty}^{\infty} f(\varepsilon),d\varepsilon = k\int_{-\infty}^{\infty} \exp\Bigl(-\frac{c'}{2}\varepsilon^2\Bigr)d\varepsilon = 1
$
ですが、ガウス積分の公式より
$
\int_{-\infty}^{\infty}\exp\Bigl(-\frac{c'}{2}\varepsilon^2\Bigr)d\varepsilon = \sqrt{\frac{2\pi}{c'}}
$
となるので、
$
k\sqrt{\frac{2\pi}{c'}} = 1 \quad\Longrightarrow\quad k = \sqrt{\frac{c'}{2\pi}}.
$
また、誤差の分散を $\ \sigma^2 $ としたいので、$\ c' $ と $\ \sigma^2 $ には
$
c' = \frac{1}{\sigma^2}
$
という関係が成り立ちます。よって、$\ f(\varepsilon) $ は
$
f(\varepsilon) = \sqrt{\frac{1}{2\pi\sigma^2}},\exp\Bigl(-\frac{\varepsilon^2}{2\sigma^2}\Bigr)
$
と求まります。
最後に、$\ \varepsilon = x - \mu $ とおくと、$\ x $ の確率密度関数は
$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}},\exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr)
$
となり、これが正規分布の形となります。
おわりに
以上のように、
1. 誤差は全て独立に同じ分布に従う
2. 誤差が0のときの一番ノーマルな状態の確率が最大となる
3. 小さすぎるのと大きすぎる誤差は等しい確率でおこる
4. 極端なイレギュラーが起こる確率は0に収束していく
という前提条件を仮定するだけで、最尤法を用いた導出の過程から正規分布の形が導かれることを示しました。
このように、正規分布は直感的な条件だけから、示すことができるのです
これが、世界中になぜ普遍的に正規分布が存在するかのたねあかsとなっています。
参照