#統計学入門を読んで
小学生の読書感想文のようなタイトルとなりましたが、書籍を読んで自分用にまとめたメモです。
評判が良いことは知っていたのですが、みんなが奨めるものは気が進まないという悪癖があり、ずっと読んでいませんでした。
しかし上司に勧められた&中学数学までで説明されている&安いというのに惹かれ読んだところ、とてもよかったので備忘もかねてメモを残します。
以下x講は書籍と対応させており、それに要約文のタイトルを併記しました。
本書は理解を深めさせるための章,講が多く設けられていますが、本記事は振り返り用のメモであるため省略しました。
(理解を深めるためにはとてもよかったので、もし読んでない方がいらしたらぜひ読んでみてください)
#0講 記述統計と推測統計
※本書では確率を扱わない
※中学数学までで理解できるように書いてある(Σとか使わない)
- 記述統計:
得られたデータからその特徴を抜き出す
└度数分布表やヒストグラムなどのグラフ
└平均や標準偏差などの統計量による方法論
- 推測統計:
統計学の手法と確率理論をミックス。部分から全体を推測する
└全体を把握しきれないほど大きな対象を推測
└まだ起きておらず、未来に起きることを推測
#記述統計編
##1講 度数分布表とヒストグラム
- 例えば、女子大生の身長は皆同じではなく、様々な値をとっている。→これを分布するという。
- 分布が生じるのは、数値が決まる背後に何らかの不確実性が働いているから。
- この不確実性には、様々た__特徴や癖__があることがわかっており、これを分布の特性と呼ぶ。
- 分布との特性を見るには、統計量{:特徴を代表させる値)やヒストグラムで確認すると良い。
着眼点の例
└データがどこに集中しているか
└データに対称性がありそうか
##2講 平均値
3講 分散
平均値=階級値×相対度数の合計
column ※2つの値x,yの平均を出したい場合
算術平均(合計の平均など) : 足して個数で割る
幾何平均(成長率を平均するときなど): $ \sqrt{xy}\ $
二乗平均(標準偏差など) : $ \sqrt{\frac{(x^2+y^2)}{2}}\ $
調和平均(速度の平均など) : $ \frac{2}{\frac{1}{x}+\frac{1}{y}} \ $
偏差:各データが平均値からどのくらい大きい/小さいか
分散:偏差の2乗の合計/個数
※二乗にするのは、大きいほうにはなれようが、小さいほうにはなれようが打ち消しあわないようにどちらも正の数として評価するため。
標準偏差:偏差の2乗平均 = 分散のルート
##4講 標準偏差はデータの特殊性がわかる
5講,6講 標準偏差の理解を深める(省略)
7講 正規分布
正規分布の特徴
縦軸:相対度数(どの階級も度数は無限=度数そのものは無視して、相対度数でヒストグラムを作る)
横軸:階級値
- 標準正規分布: 平均=0, 標準偏差=1
- 一般の正規分布: 平均=μ, 標準偏差=σ
└一般の正規分布のデータ=σ×標準正規分布のデータ+μ
$ \frac{データ-平均値}{標 準 偏 差} \ $ と加工すると、平均値0,標準偏差1となり標準化できる
(一般の正規分布を標準正規分布になおせる)
##8講 95%信頼区間
9講 仮説検定
10講 区間推定
※本書では95%予言的中区間という言葉を用いている
- 標準正規分布の95%信頼区間は-1.96以上+1.96以下
- 正規分布の95%信頼区間は(μ-1.96σ)以上+(μ+1.96σ)以下
- データxが、平均値μ、標準偏差σの正規分布に従う場合の95%信頼区間は、
以下の不等式を解いて得られる範囲
-1.96≦\frac{x-μ}{σ}≦+1.96
- この不等式が成立しない場合、仮説は棄却される
95パーセント予言的中区間というのは、
「もう傾向知ってるから、95%の確率でこんくらいの数字になるね」
と予言している区間のことです。
95パーセント信頼区間というのは、
「傾向知らんけど、こんくらいの幅で予想してったらそん中の95%は当たってるはずやで」
と信頼できる区間のことです。
※1つの幅データのうちの95%が合ってるんじゃなくて、
そういう幅データで計測してったらそのうちの95%には狙った真値が入っているという意味
--引用元:予言的中区間と信頼区間の違いを簡単に説明したい
推測統計編へ続く……