統計の本を眺めていると多くの本が度数分布表から始まる。
最初のころは、楽勝じゃんこんなの。
と考えていた時期もあったが、勉強していくうちに結局この考えに行きつくんだな
ってくらい重要だったので整理の意味でも度数分布表(ヒストグラム)についてまとめてみようと思う。
1.度数分布表
観測されたデータを階級ごとに分けて表形式にしたもの
ex.
50人の身長を階級別に表にした場合
身長(階級) | 人数 | 相対度数 |
---|---|---|
145~150 | 10 | 0.2 |
150~155 | 30 | 0.6 |
155~160 | 10 | 0.2 |
階級の決め方は色々議論があるが、まずはこうゆう表を作るところから。
145~150の身長の人が10人で割合が0.2(10/50=0.2)です。という表。
相対度数が後に確率として扱われることになる。
1.1度数分布表からの平均値
平均値=階級値その1 * 相対度数その1 + ・・・・
階級値=(階級の下限 + 階級の上限)/2
※今回は範囲(xxxx~▲▲▲▲)があるので、上記のような算出を行います。
範囲が無い場合は、階級をそのまま階級値として利用する
実際の計算
平均値={((145+150)/2) * 0.2} + {((150+155)/2) + 0.6} + {((155+160)/2) + 0.2}
⇒
{147.5 * 0.2 } + {152.5 * 0.6} + {157.5 * 0.2}
⇒
{29.5}+{91.5}+{31.5}=152.5
となる。
一人一人の身長がわからないのに、平均なんて出せるの?というところは統計学のご愛嬌。
統計学はある程度誤差はOKとするところがあります。ただ、上記で算出された152.5は
一人一人の身長がわかっていてそこから平均をとった値と、そんなに違いはないそうな。
1.2度数分布からの標準偏差
平均値と同様に、標準偏差も求めることができる。
分散=(平均値-階級値その1) * 相対度数その1 + (平均値-階級値その2) * 相対度数その2 + ・・・
標準偏差=sqrt(分散)
分散=(152.5-147.5)^2 * 0.2 + (152.5-152.5)^2 * 0.6 + (152.5-157.5)^2 * 0.2 = 計算は省略
※分散、標準偏差については以下にも記載
http://qiita.com/yuki_saito_/items/dbbf1bf18879b3b248f0
1.3表としてまとめる意義
①見やすい
②整理しやすい
③計算しやすい
データを見るときはまず整理からといったところな気がする。
こんな表から、正規分布だなんだとなっていくので、不思議な気分。
次回は正規分布周りをまとめてみようと思う(多分)。