※この投稿はシリーズものの一部です。
part9 <-[part1](http://qiita.com/yuusei/items/f8850a0efb74f68f988b)->[part11]近いうちに・・・
このブログのナンバリングも、会社の勉強会に合わせて更新する様になってしまい、当初の枠組みからだいぶズレてしまいました。まぁ、やっていくうちに全部の項目が埋まる~(様に頑張る)~ので、後々ちゃんとナンバリングし直す予定です。
1章 記述統計の基本と基本的な確率分布 (平均/分散/標準偏差/共変動と相関/一様分布/ガウス分布 etc…)
2章 推計統計の基本と対応する確率分布 (検定/推定/t分布/χ二乗分布/F分布 etc…)
3章 様々な確率分布 (二項分布/ポアソン分布/負の二項分布/対数正規分布/指数分布/アーラン分布/ガンマ分布 etc…)
4章 確率過程を理解する為の基礎概念 (確率空間/独立性/ルベーグ積分/大数の弱・強法則/フーリエ変換/中心極限定理 etc…)
5章 確率過程入門 (ウィーナー過程/レヴィ過程/ガウス過程/マルコフ過程/MCMC etc…)
6章 確率的最適化入門 (確率過程の入った待ち行列理論 / 確率的最適制御-動的計画法)
の1章、ガウス分布のところですね。前回の最後に書いた
次はやっと数章前に予告した「平均はなぜ期待値とも呼ばれるのか」です。
ただし、これには追加で一言条件があります「無限の世界において」です。
これは一旦スキップします。
正規分布についての基礎知識
まずはWikipediaから
確率論や統計学で用いられる正規分布(せいきぶんぷ、英: normal distribution)またはガウス分布(英: Gaussian distribution)は、平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布である。中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことにより正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている。たとえば実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されている。 (引用元:Wikipedia:正規分布)
うーん、何を言っているのか分かりませんね。こう言うのって、習った人には「そうだよね」ですが、習っていない人には「そ、そうだよね?」で終わるんですよね。このあたりが理系が嫌われる一因なのかなと思っていたりします。
ここではとりあえず必要そうなとこだけ拾っておきましょう。
・正規分布は確率分布
・中心極限定理が適用されると、確率変数は正規分布として扱える
・中心極限定理が適用できると、多くのものが正規分布として表現できる
こんなところですかね。ざっくり言うと「中心極限定理が適用できれば、全ての観測値(サンプル)を正規分布として扱う事ができる」となります。自分も新卒の時にこのあたりの事を学んでいたので、懐かしいなと思いながら書いているのですが、一般的には「中心極限定理が適用できれば」と言うところの検討が弱いまま実用化されているケースも多いのではないかと体感しています。そう言う事を起こさない様に、のちのち大数の弱/強法則と中心極限定理については別エントリで説明しようと思います。このエントリはいわばそのエントリへのジャブになります。
正規分布の見た目
正規分布は確率分布なので、確率密度関数(probability density function)の形で表現できます。確率密度関数とは、バッシングを恐れずに言えば「ヒストグラムの各区間の高さを全体の面積で割り算したもの」と思ってください。まぁ、数学的な厳密さはさておき、実務で使う分にはヒストグラムみたいなもんだと思っていただければいいかなと。関数なので、$f(x) = (xの関数)$ の形で表現できるわけです。
ここで注意したいのが、ひとえに正規分布と言っても、そのバリエーションは無限にあります。みなさんが正規分布と言われた時にイメージするのは、山のような(一般的には釣鐘型、ちょっと洒落た表現でベルカーブ)形だと思いますが、その高さと幅については、実際に同じ方眼紙に書き下したとしても一致しないと思います。
回りくどい説明の仕方で申し訳ありませんが、どうしてそんなことになるのか?と言うと、それは正規分布が$f(x) = (xの関数)$であるだけでなく、平均値$\mu$と分散$\sigma^2$にも依存しているからです。
これはつまり、平均値と分散が決まらないと正規分布の形を特定できないことになります。
実務上も基本はその手順でやっていきますが、何度か話しているように、中心極限定理の応用で多数回の試行から近似するMonte Carlo simulation的な手法なんかも使われているんじゃないかなぁと思っています。
そんなわけで、正規分布は平均と分散が決まらないと使えません。それは数式にも表れています。
\begin{eqnarray}
f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}}\exp(- \frac{(x-\mu)^2}{2 \sigma}) , (x \in \mathbb{R})
\end{eqnarray}
右辺に平均値$\mu$と分散$\sigma^2$があるのがわかりますね?これが色々な値を取ることにより($\sigma^2 > 0$ではあるのですが・・・)正規分布の形に下のキャプチャの様な多様性が出てくるわけです。
この中で特殊な場合($\mu=0$と$\sigma^2= 1$)の正規分布を標準正規分布と呼んで特別扱いしています。偏差値とかに使われる分布はこれですね。標準化(Standardization)により、サンプルの平均値と分散を調整するとこの標準正規分布が得られます。数式だと先ほどの式に$\mu=0$と$\sigma^2= 1$を代入することになります。
\begin{eqnarray}
f(x) = \frac{1}{\sqrt{2 \pi}}exp(- \frac{x^2}{2}),
(x \in \mathbb{R})
\end{eqnarray}
画像だと
Rコード(冗長になるので一部だけ):
mean=0; sd=1
x <- seq(-20,50,length=1000)*sd + mean
plot(x, hx, type="l", xlab = "", ylab="",
main="Normal Distribution", axes=FALSE, col = "black")
となります。
誰が正規分布を見つけたの?
別名が「ガウス分布」なので、当然カール・フリードリッヒ・ガウスさんでは?と思った人、今回エントリを書くにあたって確認したところ、どうも違うようなのです。
正規分布はアブラーム・ド・モアブルによって1733年に導入された[3]。この論文はド・モアブル自身による1738年出版の The Doctrine of Chances 第二版のなかで、高い次数に関する二項分布の近似の文脈において再掲されている。ド・モアブルの結果はピエール=シモン・ラプラスによる『確率論の解析理論』(1812年)において拡張され、いまではド・モアブル–ラプラスの定理と呼ばれている。ラプラスは正規分布を実験の誤差の解析に用いた。その後アドリアン=マリ・ルジャンドルによって1805年に最小二乗法が導入され、1809年のカール・フリードリヒ・ガウスによる誤差論で詳細に論じられた(ガウスは1794年から最小二乗法を知っていたと主張していた)。 (引用元:Wikipedia:正規分布#歴史)
つまり、ガウスは「誤差論」で最小二乗法と絡めて正規分布を広めたため、彼の名前が(特に出身であるドイツで)使われているだけで、実際に解析学の文脈に導入したのはド・モアブルだったらしいです。
(※Wikipediaの正規分布のページにはソースがないため疑義が提示されているものもある様なので豆ですが)
正規分布の実務への応用
正規分布は便利である
正規分布は歴史的に見ても古くから確認され、ガウスの最小二乗法などの応用が広く知られたため、古くから研究が進み、多くの応用が得られました。特に、中心極限定理の導出によりその地位が確固たるものになりました。中心極限定理では
「サンプルの数を無限大に持っていけば、その平均値(算術平均)と真の分布の平均値との誤差(ズレ)を$\sqrt{n}$倍したものは平均$0$、分散$\sigma^2$の正規分布に従う」
と言う事が主張されています。ここでの主張「サンプルの数を無限大に持っていけば」と「平均$0$、分散$\sigma^2$の正規分布に従う」と言うところがつまみ食いされて、よくある誤解(と言い切っていいのかは難しいところですが・・・)
「独立な同一の分布に従う確率変数の算術平均(確率変数の合計を変数の数で割ったもの)の分布は、もとの確率変数に標準偏差が存在するならば、もとの分布の形状に関係なく、変数の数が多数になったとき、正規分布に収束する。」(引用元:Wikipedia:正規分布#正規分布の適用)
の様に「同じ母集団から取ったサンプルの平均の分布は、サンプル数を多くすればするほど、元の分布の形に関係なく正規分布に収束する」と言った形で「サンプルの平均値と真の分布の平均値とのズレの分布」が「サンプルの平均値の分布」に読み替えられてしまっています。
この読み替えが実務上どんな影響を及ぼすのかについては、ここでは論じません(論じるほど理解しきっていないので・・・)が、中心極限定理を扱う方は「平均値の分布」ではなく「誤差の分布」が標準偏差に従うのだと言うことに注意しておくと、面倒ごとは避けられるんじゃないかなと思います。
ともあれ、この中心極限定理のおかげで、大抵の事象がサンプル数を大きくすれば、正規分布に変換して扱えると言うことで、正規分布は非常に広範な場面で使われています。
一つの応用例として、第二次産業である製造業では古くから タグチメソッド(品質工学)やMSA (Measurement System Analysis があります。これらは製造時にどうしても出てくる製品サイズの誤差を小さくするために用いられました。ここで扱っているものが製造誤差ですので、正規分布があまねく応用されています。
もう一つの応用例として、現代数学の最先端に位置する金融工学があります。株価の様な値が負を取らない確率過程をウィーナー過程としてモデル化しました。ウィーナー過程はブラウン運動と呼ばれる現象の数理モデルです。この様に確率過程(Probability Theorem)の理論的後押しにより 株価をランダムウォーク、さらにはヒストグラムとして読み替え、平均と分散で議論する事ができるのです
この二つの例だけでも、正規分布がどれだけ長い間産業界に置いて応用されてきたかがわかるかと思います。
正規分布は万能ではない
この様に、歴史的に長く研究され、応用も多く出ているとはいえ、現実世界の全てを正規分布にするのは無理があります。
前述のごとく自然界の事象の中には、正規分布に従う数量の分布をとるものがあることが知られている。しかしそれは必ずしも多数派というわけではない。19世紀ではさながら「正規分布万能主義」といったものがまかり通っていたが、20世紀以降そういった考え方に修正が見られた。今日においては社会現象、生物集団の現象等々、種別から言えば、正規分布に従うものはむしろ少数派であることが確認されている。(引用元:Wikipedia:正規分布#正規分布の適用)
世の中には正規分布だけで片付けられない事象が数多くあります。
例えばビジネス分析上多く使われているのはポアソン分布でしょう。この分布は「一定期間/空間内で発生するイベントの頻度分布(ヒストグラム)」であり、多くのことに適用できます。上記のWikiに紹介されている例としては、
1時間に特定の交差点を通過する車両の台数。
1ミリリットルの希釈された水試料中に含まれる特定の細菌の数(細菌数検査における最確法)。
単位面積あたりの雨粒の数。
1ページの文章を入力するとき、綴りを間違える回数。
1日に受け取る電子メールの件数。
1時間あたりの電話がかかってくる件数。
ある一定の時間内の店への来客数。
1分間のWebサーバへのアクセス数。
例えば、1時間あたりのウィキペディアの最近更新したページの編集数もおおよそポアソン分布
1キロメートルあたりのある通り沿いのレストランの軒数。
1ヘクタールあたりのエゾマツの本数。
1立方光年あたりの恒星の数。
単位時間あたりの放射線の計数値であるカウント毎分やカウント毎秒(半減期による減衰や外部からの放射能などによる変動がないと仮定して)。
があります。このポアソン分布は$\lambda$を変えることにより形が大きく変わります。
Rコード:
plot(dpois(0:30,5), type = "l", ylim =c(0, 0.2), col = "red", main = "Poisson Distribution")
lines(dpois(0:30,8), type = "l", ylim =c(0, 0.2), col = "blue")
lines(dpois(0:30,15), type = "l", ylim =c(0, 0.2), col = "black")
legend("topright"
, legend = c("lambda = 5","lambda = 8","lambda = 15")
, col = c("red", "blue", "black")
, lty = c(1,1,1), ncol = 1)
$\lambda$が大きくなるにつれ正規分布に近くなっているのがわかるでしょうか?このことから、ポアソン分布は正規分布で近似する事ができます。(上記の例の中に「ある一定の時間内の店への来客数」と言うものがあったと思います。これは待ち行列理論という数理的モデルに応用されており、来客のリードタイムは指数分布で求められます)
また、ポアソン分布に似た分布で二項分布や負の二項分布というものがあります。
二項分布はポアソン分布と同様に、正規分布に近似できるので重宝されています。負の二項分布はベルヌーイ試行のリードカウント(造語。リードタイムが連続値なのに対してリードカウントは離散値)で扱われます。USJを生き返らせたマーケターも負の二項分布をUSJへのプリファレンスをNBDモデルとして公開しています。
NBDモデル
Pr = $\frac{(1+M/K)^{-k}\Gamma(K+r)}{\Gamma(r+1)\Gamma(K)}(\frac{M}{M+K})^r$
まとめ
このように、正規分布は歴史が長く応用例も多数出ており便利ではありますが、だからと言って万能というわけでもない事がわかります。
誤差と言う点にフォーカスを絞れば正規分布一択かもしれませんが、確率論においてはウィーナー家庭よりもポアソン分布の方が先に出てきていたわけですし、ポアソン分布はサッカーの点数を予測するなどの統計的なモデルとして有用度は高いです。日本での実例としては世界有数のマーケターが成功例を叩き出しています
データサイエンスと言う枠組みで何かを行うにあたって、確率分布の議論は避けて通れないと思います。これは私だけでなく多くの現場に携わる方々が感じ入っているところだと思いますが、その適正な応用例となると、なかなか表には出てきません。
その中で、皆さんがどの様に学ぶかと言う話ですが「数式を読む」「自分で実務で使う」が一番の近道だと思います。数式を読むとは「プログラムコードに落とし込める」ではなく「現実を数式に当てはめられる」を指します。ここができると、日本データサイエンティスト協会の言うところの「ビジネス力」「統計力」が両方鍛えられるんだろうなと思います。
次回はこのエントリのタイトルになっている「正規分布」を強力なツールたらしめた定理、
「大数の弱法則(Convergence in Probability)」
「大数の弱法則(Convergence “with Probability 1”)」
「中心極限定理(Central Limit Theorem) / (Convergence in Distribution)」
について説明し、そのあとに確率過程の話を書いていきたいと思います。