はじめに
統計学において最も頻繁に登場する重要な確率分布の正規分布について紹介する
目次
- 正規分布
- 正規分布の性質
- 標準化
1. 正規分布
統計学において最も重要な確率分布で、別名ガウス分布といいます。
連続型の確率変数に対して定義され、確率密度関数は次のように表されます。
f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}}\exp \left(- \frac{(x - \mu)^2}{2 \sigma^2} \right)
正規分布は平均$\mu$と標準偏差$\sigma$の2つのパラメータで決まります。
以下の図は、正規分布の平均と分散を変化させて描画したものになります。
パラメータ$\mu$は分布の位置に対応し、$\sigma$は分布の幅の広さに対応することが見て取れる。
正規分布には次にような特徴があります。
・平均$\mu$を中心とした釣り鐘型であり、左右対称の分布
・平均$\mu$付近の値が最も現れやすく、平均から離れるほど現れにくい
・身長や体重など、正規分布で近似できる現象が多い
2. 正規分布の性質
正規分布には次のような性質があります。
・$\mu - \sigma$から$\mu + \sigma$までの範囲の値が起こる確率が約68%
・$\mu - 2\sigma$から$\mu + 2\sigma$までの範囲の値が起こる確率が約95%
・$\mu - 3\sigma$から$\mu + 3\sigma$までの範囲の値が起こる確率が約99.7%
例)成人男性の身長が、平均$\mu$=167.6(cm)・標準偏差$\sigma$=7.0の正規分布に従うとする。
すると正規分布の性質から次のようなことが言える。
・$\mu - \sigma$=160.6から$\mu + \sigma$=174.6の範囲に約68%
・$\mu - 2\sigma$=153.6から$\mu + 2\sigma$=181.6の範囲に約95%
・$\mu - 3\sigma$=146.6から$\mu + 3\sigma$=188.6の範囲に約99.7%
つまり、181.6cm以上の身長の人は約5%程度しかいないことがいえる。
3. 標準化
データを標準化すると、平均と分散を考慮した数値の大きさを得ることができる。
一般に確率変数$x$に対し平均と標準偏差を用いて
z = \frac{x - \mu}{\sigma}
とすることで、平均0標準偏差1の値に変換することができる。
これを標準化という。
異なるデータから得られた確率分布を比較したいときに、標準化をしないと平均や標準偏差が異なるので比較することができないが、標準化を実施して平均0標準偏差1に統一することで比較できるようになる。