オーム社から発売されている入門統計学 -検定から多変量解析・実験計画法までが非常に良い本なので、これを勉強してます
ここではその中で練習問題にあげられている内容をRで解き、備忘がてら記載していきます
問一 表計算ソフトを使って、第1章の章末問題で使用した20戸の農家のデータを標準化しなさい。
表計算ソフト使わずRでやってみました
question1
> menseki <- c(60,30,365,190,136,15,37,100,170,70,783,560,50,35,595,200,300,356,155,250)
> money <- c(400,15,480,993,600,150,115,50,0,130,3000,500,200,55,2200,1,900,1000,450,400)
> nouka <- data.frame(menseki, money)
#標準化
> z_nouka <- scale(nouka)
#値表示
> z_nouka
menseki money
[1,] -0.7600871 -0.23568327
[2,] -0.9001093 -0.73438104
[3,] 0.6634718 -0.13205776
[4,] -0.1533243 0.53244083
[5,] -0.4053642 0.02338051
[6,] -0.9701204 -0.55951299
[7,] -0.8674374 -0.60484915
[8,] -0.5733908 -0.68904488
[9,] -0.2466724 -0.75381083
[10,] -0.7134130 -0.58541937
[11,] 2.6144476 3.13214584
[12,] 1.5736160 -0.10615138
[13,] -0.8067612 -0.49474705
[14,] -0.8767722 -0.68256829
[15,] 1.7369752 2.09589073
[16,] -0.1066502 -0.75251551
[17,] 0.3600904 0.41197617
[18,] 0.6214651 0.54150806
[19,] -0.3166835 -0.17091733
[20,] 0.1267201 -0.23568327
attr(,"scaled:center")
menseki money
222.85 581.95
attr(,"scaled:scale")
menseki money
214.2518 772.0107
面積とお金という違う値が、比較できる数値に変換されている事がわかります
問二 同様に、20戸の農家データの尖度と歪度を求めなさい
お金の尖度、歪度を求めてみます
question2
> install.packages("moments")
> library(moments)
#尖度
> kurtosis(money)
[1] 6.511234
#歪度
> skewness(money)
[1] 2.033882
尖度、歪度ともに0が基準 => まったく正規分布ではない
まあヒストグラムもかなり左寄りなので納得の結果です
問三 あなたの得点は80点でした。クラスの平均が60点、標準偏差が10点の正規分布の場合、あなとの得点の標準化した値と偏差値を求めなさい
question3
# 標準化した値((値-平均) / 標準偏差)
> (80 - 60) / 10
[1] 2
# 偏差値(10を掛け、50を足す)
> ((80 - 60) * 10) / 10 + 50
[1] 70
偏差値70なのでかなり頭の良い方のようです
問四 問三で標準化した値が2.00だとすると上位何パーセントくらいの位置にいると考えられるか
標準化した値とありますが、ズルをして元の値を使います
(まあ実際は元の値を使うことがほとんどでしょうし、、、)
question4
> 1 - pnorm(80,60,10)
[1] 0.02275013
問三で偏差値70だとわかっていますが、そこから推測される値とも一致する値ですね
偏差値70になるには100人中TOP2,3に入らなければならないということですね
問五 日本では過去五年で平均20,204人の食中毒が発生しています。千葉県松戸市(484,600人)において食中毒が一人も発生しない日の確率をポアソン分布を使って求めなさい。なお日本人口は127,370,000人とする
question5
# 一人が一日に食中毒なる確率 * 松戸市民
> dis <- 20204 / 365 / 127370000 * 484600
# ポアソン分布の確率密度関数にあてはめる 発生しない日なので発生回数=0
> ppois(0, lambda = dis)
[1] 0.8100971
81%ということなので、食中毒って以外と発生しない日が多いということでしょうか
ただ(20204 / 365)という式ってどうなんでしょうね
食中毒って結構集団でなるイメージがあったりしますが