とある場所での統計利用
とある申請時間と、実際の時間が大幅にずれてる!!!と言われたので、とある制度を導入した時のお話。
統計使って、精度良くなったかなとか判定できそう!!と思って、
復習がてらいくつかの基本統計量(要約統計量)についてまとめてみた。
1.平均値 (mean, average)
めちゃめちゃ有名な統計量。統計をやったことない人も知っている。
が、意外とバカにできない数値。
標本(割る数値の方)が大きくなればなるほど、平均値は標本を代表する値になる。
大学数学の叡智が詰まっている数値(らしい)。
2.分散(不偏分散)、標準偏差(variance,standard deviation)
各データから平均を引き、その2乗を合計して、データ数で割ったものが分散。
この2乗して計算するというのが結構な大発見だったとか。
分散 = (データその1 - 平均)^2 + (データその2 - 平均)^2 ・・・・・/ データの数
※データの数-1で割ると不偏分散と呼ばれるものになります。
データの数が母集団(この世の全部とか、とある学部とか)なら-1する必要はないです。
データの数が標本(母集団の一部)なら-1するのが通例
標準偏差は分散をルートとったもの
標準偏差=sqrt(分散)
※sqrt:√
2-1何がわかるのか
平均値からのデータのばらつきがわかる
大きくなればなるほど、ばらつきが大きい(精度が悪い)
ex.
1 1 1 1 1 1 の標準偏差は0 平均は1 ⇒全部平均のデータなのでばらつきがない
2 2 2 2 2 2 の標準偏差は0 平均は2 ⇒全部平均のデータなのでばらつきがない
1 2 3 4 5 6 の標準偏差は1.87くらい 平均は3.5 ⇒平均から、大体データが±1.87くらい離れているよといった感じ
これだけでも、「何となく」を脱した気がする。。。
昔統計検定2級とったし、もったいないので定期的に復習していこう
ほかの統計量
最頻値、中央値、尖度、歪度、レンジ、最大、最少、標本数、標準誤差
もあるがこちらはまた機会があれば。