使用しているデータのダウンロード
- 以下のリンクをクリックして、「CUSTOM COLUMNS (180)」になっていることを確認して「Download CSV」をクリック
- ファイル名を stats.csv から 2015-2024_batting_all.csv へ変更
- RStudio へ読み込む
player_batting_all <- read.csv("2015-2024_batting_all.csv")
確率
確率(probability) は、任意の現象が起こる確かさの程度を割合で表したものです。例えば、MLB シーズンの中で、出場選手の打率等のある成績が起こる確かさの程度を割合といったことです。
よく確率の説明で出てくるのが、サイコロの目の話ですが、各出目が起こる確かさの程度は、6分の1、約0.1667、約16.67%というのは、直感的にわかります。これを以下のように表現します。
P(X = 1) = 0.1667
P(X = 2) = 0.1667
P(X = 3) = 0.1667
P(X = 4) = 0.1667
P(X = 5) = 0.1667
P(X = 6) = 0.1667
但し、X はサイコロの目
サイコロを6回振って、各目が1回ずつ出るということは、なかなかないですけど、600万回振れば、だいたいこの通りになるでしょう。これは、ある現象を何度も繰り返していくうちに、その結果は、本来の確率に近づいていくということで、これを大数の法則といいます。
vol.4 でやった打率の度数分布表をもう一度やってみましょう。
batting_avg <- as.numeric(player_batting_all$batting_avg, year="2024")
batting_avg_meta <- hist(batting_avg)
classified_names <- NULL # 変数を用意
for (i in 1:n) {
classified_names[i] <- paste(
paste(substring(sprintf("%0.3f", batting_avg_meta$breaks[i]), 2, 4), "0", sep = ""),
" - ",
paste(substring(sprintf("%0.3f", batting_avg_meta$breaks[i + 1]), 2, 4), "0", sep = "")
)
}
classified_names
[1] ".180 - .200" ".200 - .220" ".220 - .240" ".240 - .260"
[5] ".260 - .280" ".280 - .300" ".300 - .320" ".320 - .340"
batting_avg_relative <- batting_avg_meta$counts / sum(batting_avg_meta$counts)
batting_avg_rtable <- data.frame(打率=classified_names, 度数=batting_avg_relative)
batting_avg_rtable
打率 度数
1 .180 - .200 0.007751938
2 .200 - .220 0.062015504
3 .220 - .240 0.147286822
4 .240 - .260 0.387596899
5 .260 - .280 0.209302326
6 .280 - .300 0.131782946
7 .300 - .320 0.031007752
8 .320 - .340 0.023255814
相対度数の度数分布表は、各階級の確率を表していて、ある現象(この場合、MLB 2024 シーズンのSTATCAST規定到達打者の打率)は確率分布するといいます。
確率分布の特徴は
- 各確率は、どれも0 と 1の間にある
- 確率はマイナスにはならない
- 確率は1を超えない
- 確率分布の全ての確率を足すと1になる
batting_avg
は母集団ですから、母集団分布と言い換えることもできます。
無作為標本抽出
batting_avg
は、データ個数129個の母集団ですから、全部、調べるのも、そんなに苦にはなりませんが、母集団が大きく、すべてを調べることが困難な場合、母集団から標本(sample)を抽出して、母集団の傾向を推測することがあります。
もっとも、MLB STATCAST の場合、母集団は有限(有限母集団)で、データとしてすべて取得可能なので、そんな心配はいらないのですが、統計学の知識としてやってみましょう。
標本抽出(sampling) をする方法で良いとされているのは、無作為標本抽出(random sampling)です。これによって抽出した標本を無作為標本(random sample)といいます。
無作為標本抽出には2種類の方法があります。
- 復元抽出法
- 非復元抽出法
何やら分かりにくい言葉ですが、復元抽出とは、抽出した標本を母集団に戻す(replace)ことをいいます。
そうすると、非復元抽出とは、戻さないということになります。
どう違うかというと、戻した場合、同じものをもう一度抽出する可能性があるということです。非復元の場合は、それはあり得ませんよね。
復元抽出法が有効なケースというのは、母集団が無限で、標本抽出できる母集団が限られている時に、復元抽出すると、無限母集団から抽出したのと似たような結果になると言われています。
この場合、そういうケースではないので、非復元抽出法による無作為標本抽出で良いということになります。
それでは、やってみたいと思いますが、条件を決めます。
- 標本サイズ(size of sample) いくつ抽出するのか
- 標本の数(number of sample) 標本を何セット作るのか
それでは、標本サイズ 10 で、標本の数は4セットということにしておきましょう。
batting_avg_sample1 <- sample(batting_avg, 10, replace = FALSE)
batting_avg_sample2 <- sample(batting_avg, 10, replace = FALSE)
batting_avg_sample3 <- sample(batting_avg, 10, replace = FALSE)
batting_avg_sample4 <- sample(batting_avg, 10, replace = FALSE)
batting_avg_sample1
[1] 0.302 0.246 0.310 0.256 0.243 0.242 0.267 0.314 0.267 0.246
batting_avg_sample2
[1] 0.241 0.233 0.262 0.248 0.299 0.246 0.275 0.281 0.246 0.250
batting_avg_sample3
[1] 0.253 0.269 0.247 0.279 0.231 0.273 0.219 0.292 0.241 0.282
batting_avg_sample4
[1] 0.224 0.219 0.267 0.252 0.273 0.278 0.253 0.302 0.282 0.256
summary(batting_avg_sample1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2420 0.2460 0.2615 0.2693 0.2933 0.3140
summary(batting_avg_sample2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2330 0.2460 0.2490 0.2581 0.2717 0.2990
summary(batting_avg_sample3)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2190 0.2425 0.2610 0.2586 0.2775 0.2920
summary(batting_avg_sample4)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2190 0.2522 0.2615 0.2606 0.2767 0.3020
4つの標本セットが出来ました。繰り返しますが、これは方法を説明しているだけで、STATCAST を利用する上では、あまり意味のないことです。
試しに、母集団と比べてみましょう。
length(batting_avg)
[1] 129
summary(batting_avg)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1960 0.2420 0.2560 0.2581 0.2750 0.3320
たまたま、batting_avg_sample2
の標本の平均と一致してしまいましたが、偶然です。また、標本抽出は母集団を調査できないからやるわけですから、batting_avg_sample2
が優秀だから、これを使うというようなこともできませんよね。
複数の標本セットを作る意味は、標本平均値の平均、分散を取ると、母集団の平均、分散に近づくことがわかっているからです。
mean(c(0.2693, 0.2581, 0.2586, 0.2606))
[1] 0.26165
今回の場合、標本サイズ 10 と小さいので、信頼性はないですし、STATCAST の利用上、意味はありません。
試しに、標本サイズ50 で、標本の数 2 でやってみましょうか。
summary(batting_avg_sample1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2140 0.2412 0.2555 0.2578 0.2720 0.3230
summary(batting_avg_sample2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2140 0.2420 0.2565 0.2589 0.2750 0.3220
mean(c(0.2578, 0.2589))
[1] 0.25835
かなり近づきましたが。これはチートに近いですね。母集団129しかなくて、50個ですからね。現実的な調査じゃないです。50個を2回調べられるなら、最初っから全数調査でいいと思います。
今回は、かなり強引な感じが否めませんが、何かに応用していただければ嬉しいです。