趣味で勉強している程度のレベルなので本記事の情報は鵜呑みにしないで下さい
中心極限定理とは
平均 $\mu$、分散 $\sigma^2$ の独立同分布に従う確率変数列$X_1, X_2, \dots, X_n$ に関して
$n$ が十分に大きいとき、以下が成り立つ。
$$
\frac{\sqrt{n} (\bar{X} - \mu)}{\sigma} \xrightarrow{d} N(0, 1)
$$
大分ざっくりと書きました。
いろいろな場面で見かけるものの本質を理解していないため応用の仕方が分からず放置していました。
しかし、どのような分布($σ$は有限でないといけない)からサンプリングしても定理が成り立つことはとても面白いなと感じていました。
中心極限定理と向き合ったきっかけ
先日ゼロからできるMCMCを読んでいたときに以下の文章に興味を持ちました。
今,何かの測定を行ったとしましょう.この測定は複雑な実験かも知れませんし,巻き尺で距離を測るような簡単なものでも構いません.いずれにしても,測定には誤差がつきものです.誤差の要因は様々ですが,ざっくりと簡単化して,K 種類の要因があり,それぞれが独立にランダムな誤差を与えるとします.すると,測定結果は,この K 種類の乱数を足し算した分だけ正しい値からずれることになります. ここで,K が十分に大きいと面白いことが起こります.たくさんの乱数を足し算した結果として生じる「誤差」の分布は,その原因の詳細に依らずにガウス乱数になってしまうのです.これは数学的に証明することもできて,中心極限定理と呼ばれます.これを納得するには具体例を見るのが一番です.簡単のために,K 種類の誤差の源のそれぞれが [-0.5, +0.5] の範囲の一様乱数だけ結果を揺らがせると仮定します.すると,全体のエラーは K 個の一様乱数の和です.
$K=1$の時、一様分布になるのは当たり前です。
次の$K=2$の時から正規分布に近づいていき、$K=3$から丸みを帯びた形状になっています。
なぜこうなるのでしょう?
中心極限定理をサイコロを使って直感的に理解する
サイコロを例に直感的に理解していきましょう。
サイコロを1回振ったときの各目のでる確率はそれぞれ、
$P(X=1)=1/6$
$P(X=2)=1/6$
$P(X=3)=1/6$
$P(X=4)=1/6$
$P(X=5)=1/6$
$P(X=6)=1/6$
です。
サイコロを2回振ったときの各目のでる確率はそれぞれ、
$P(X=2)=1/36$
$P(X=3)=2/36$
$P(X=4)=3/36$
$P(X=5)=4/36$
$P(X=6)=5/36$
$P(X=7)=6/36$
$P(X=8)=5/36$
$P(X=9)=4/36$
$P(X=10)=3/36$
$P(X=11)=2/36$
$P(X=12)=1/36$
です。(見やすくするために約分はしていません)
1回の時は一様分布であるのに対し、2回の時は山の形状になっています。
キーポイントは 「サンプル数を増やしていくと平均値に近い値の順列(高校数学でのPermutation)が多くなる」 ことです。
サイコロを2回振ったとき、X=2となる順列が(1,1)のみなのに対し、X=7となる順列は(1,6)(2,5)(3,4)(4,3)(5,2)(6,1)と明らかに多いです。サンプリングしたときにX=7が多く出現するのも納得できます。
さらに面白いのは、"どのような分布からサンプリングしても"平均値に対して正負に等間隔離れた値の順列の数が等しいことです。
先ほどのサイコロを2回振る例でも平均値である$X=7$に対して$X=6$と$X=8$の順列の数は同じです。これは一様分布だから成り立ったわけではなく、どのような分布でも同じようなことが言えます。
(これは感覚的にすこし掴みづらいと思います、、、)
これが正規分布に漸近する所以です
上記のサイコロの現象を可視化して確認しましょう。
サイコロの数が増えるにつれて、平均値が増加し、目の和のとるパターンが増えるため分散が増加していることが確認できます。
サイコロの目の出る確率が異なる場合にも成り立つことも確認してみましょう。
それぞれの目のでる確率を
$1:0.1$
$2:0.2$
$3:0.1$
$4:0.2$
$5:0.2$
$6:0.2$
としています。
特殊な分布からサンプリングしても正規分布に近づいていることが確認できます。
さいごに
本記事では中心極限定理を直感的に理解する方法をまとめていきました。
今回が初めての記事であり、厳密でないため、伝わりづらく間違っていることを書いているかも知れません。
もし何か気になることがあればコメント・指摘していただけますと幸いです。