資料やグラフで標準偏差というものは、一度は目にした事があると思いますが、実際なんなの?と思っている方もいると思います。
今はExcelなどで、標準の機能としても使用できます。統計資料作成やデータを分析して活用する際に、もっとも簡単なきっかけの部分に出来ると思います。
標準偏差とは?
もう少し、定義すると分散の正の平方根の事を、標準偏差と言います。
まーでも、実際はそんなことはどうでも良いです。どんな時に使えて何が出来るかです。
どんな時に使えるか?
例えば、年収平均500万の会社があったとします。
内訳 | A | B | C | D | 平均 |
---|---|---|---|---|---|
A社 | 510 | 480 | 520 | 490 | 500 |
B社 | 100 | 100 | 900 | 900 | 500 |
どちらも、平均を見ると500となりますが、中を見るとひどいものです。
こういう数字を見ると平均が必ずしも信用できない事がわかります。
この時、平均との誤差がどれくらいかなのか?がわかれば、平均のデータがどれくらい信用出来るかがわかります。
その発想から生れたのが分散です。
分散
分散はデータのばらつきを示す値です。
標準偏差と同じやんけ!と思われると思いますが、違いは後でご説明します。
分散は何故、対象データの2乗なのか?
これは、やって見るとわかります。
平均との誤差を求めようとすると、
内訳 | A | B | C | D | 平均 |
---|---|---|---|---|---|
A社 | 510 | 480 | 520 | 490 | 500 |
平均との誤差 | +10 | -20 | +20 | -10 | 0 |
B社 | 100 | 100 | 900 | 900 | 500 |
平均との誤差 | -400 | -400 | +400 | +400 | 0 |
平均との誤差の平均は0になってしまいます。それは、プラスの値とマイナスの値で相殺されるからです。
この状況を避ける為に、平均との誤差の値を2乗します。
内訳 | A | B | C | D | 平均 |
---|---|---|---|---|---|
A社 | 510 | 480 | 520 | 490 | 500 |
平均との誤差 | +10 | -20 | +20 | -10 | 0 |
平均の誤差^2 | 100 | 400 | 400 | 100 | 250 |
B社 | 100 | 100 | 900 | 900 | 500 |
平均との誤差 | -400 | -400 | +400 | +400 | 0 |
平均の誤差^2 | 160000 | 160000 | 160000 | 160000 | 160000 |
この250と160000が分散です。
ただ、これではしっくり来ません。何故なら、元データに対して2乗してしまっているので、単位が異なってしまっています。
その為に、元データの単位に戻す為に、分散に平方根します。
ここが、標準偏差と分散の違いです。対象データと同じ基準で比較する為のものが標準偏差というイメージです。
内訳 | A | B | C | D | 平均 | 分散 | 標準偏差 |
---|---|---|---|---|---|---|---|
A社 | 510 | 480 | 520 | 490 | 500 | 250 | 15.8 |
B社 | 100 | 100 | 900 | 900 | 500 | 160000 | 400 |
これで、誤差の平均がわかりますね。