STATCAST で遊ぶ vol.6

Last updated at 2025-02-01Posted at 2025-01-30

　使用しているデータのダウンロード

以下のリンクをクリックして、「CUSTOM COLUMNS (180)」になっていることを確認して「Download CSV」をクリック
ファイル名を stats.csv から 2015-2024_batting_all.csv へ変更
RStudio へ読み込む
player_batting_all <- read.csv("2015-2024_batting_all.csv")

　2015年〜2024年STATCAST規定到達打者データ

確率

　確率(probability) は、任意の現象が起こる確かさの程度を割合で表したものです。例えば、MLB シーズンの中で、出場選手の打率等のある成績が起こる確かさの程度を割合といったことです。

　よく確率の説明で出てくるのが、サイコロの目の話ですが、各出目が起こる確かさの程度は、６分の１、約0.1667、約16.67%というのは、直感的にわかります。これを以下のように表現します。

P(X = 1) = 0.1667

P(X = 2) = 0.1667

P(X = 3) = 0.1667

P(X = 4) = 0.1667

P(X = 5) = 0.1667

P(X = 6) = 0.1667

但し、X はサイコロの目

　サイコロを6回振って、各目が1回ずつ出るということは、なかなかないですけど、600万回振れば、だいたいこの通りになるでしょう。これは、ある現象を何度も繰り返していくうちに、その結果は、本来の確率に近づいていくということで、これを大数の法則といいます。
　vol.4 でやった打率の度数分布表をもう一度やってみましょう。

batting_avg <- as.numeric(player_batting_all$batting_avg, year="2024")
batting_avg_meta <- hist(batting_avg)
classified_names <- NULL # 変数を用意
for (i in 1:n) {
    classified_names[i] <- paste(
        paste(substring(sprintf("%0.3f", batting_avg_meta$breaks[i]), 2, 4), "0", sep = ""),
        " - ",
        paste(substring(sprintf("%0.3f", batting_avg_meta$breaks[i + 1]), 2, 4), "0", sep = "")
    )
}
classified_names

[1] ".180  -  .200" ".200  -  .220" ".220  -  .240" ".240  -  .260"
[5] ".260  -  .280" ".280  -  .300" ".300  -  .320" ".320  -  .340"

batting_avg_relative <- batting_avg_meta$counts / sum(batting_avg_meta$counts)
batting_avg_rtable <- data.frame(打率=classified_names, 度数=batting_avg_relative)
batting_avg_rtable

           打率        度数
1 .180  -  .200 0.007751938
2 .200  -  .220 0.062015504
3 .220  -  .240 0.147286822
4 .240  -  .260 0.387596899
5 .260  -  .280 0.209302326
6 .280  -  .300 0.131782946
7 .300  -  .320 0.031007752
8 .320  -  .340 0.023255814

　相対度数の度数分布表は、各階級の確率を表していて、ある現象（この場合、MLB 2024 シーズンのSTATCAST規定到達打者の打率）は確率分布するといいます。
確率分布の特徴は

各確率は、どれも0 と 1の間にある
確率はマイナスにはならない
確率は1を超えない
確率分布の全ての確率を足すと1になる

　batting_avg は母集団ですから、母集団分布と言い換えることもできます。

無作為標本抽出

batting_avg は、データ個数129個の母集団ですから、全部、調べるのも、そんなに苦にはなりませんが、母集団が大きく、すべてを調べることが困難な場合、母集団から標本（sample）を抽出して、母集団の傾向を推測することがあります。
もっとも、MLB STATCAST の場合、母集団は有限（有限母集団）で、データとしてすべて取得可能なので、そんな心配はいらないのですが、統計学の知識としてやってみましょう。

標本抽出(sampling) をする方法で良いとされているのは、無作為標本抽出（random sampling）です。これによって抽出した標本を無作為標本(random sample)といいます。

　無作為標本抽出には２種類の方法があります。

復元抽出法
非復元抽出法

　何やら分かりにくい言葉ですが、復元抽出とは、抽出した標本を母集団に戻す（replace）ことをいいます。
そうすると、非復元抽出とは、戻さないということになります。
　どう違うかというと、戻した場合、同じものをもう一度抽出する可能性があるということです。非復元の場合は、それはあり得ませんよね。
　復元抽出法が有効なケースというのは、母集団が無限で、標本抽出できる母集団が限られている時に、復元抽出すると、無限母集団から抽出したのと似たような結果になると言われています。

この場合、そういうケースではないので、非復元抽出法による無作為標本抽出で良いということになります。

　それでは、やってみたいと思いますが、条件を決めます。

標本サイズ（size of sample）いくつ抽出するのか
標本の数（number of sample）標本を何セット作るのか

　それでは、標本サイズ 10 で、標本の数は4セットということにしておきましょう。

batting_avg_sample1 <- sample(batting_avg, 10, replace = FALSE)
batting_avg_sample2 <- sample(batting_avg, 10, replace = FALSE)
batting_avg_sample3 <- sample(batting_avg, 10, replace = FALSE)
batting_avg_sample4 <- sample(batting_avg, 10, replace = FALSE)

batting_avg_sample1

 [1] 0.302 0.246 0.310 0.256 0.243 0.242 0.267 0.314 0.267 0.246

batting_avg_sample2

 [1] 0.241 0.233 0.262 0.248 0.299 0.246 0.275 0.281 0.246 0.250

batting_avg_sample3

 [1] 0.253 0.269 0.247 0.279 0.231 0.273 0.219 0.292 0.241 0.282

batting_avg_sample4

 [1] 0.224 0.219 0.267 0.252 0.273 0.278 0.253 0.302 0.282 0.256

summary(batting_avg_sample1)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2420  0.2460  0.2615  0.2693  0.2933  0.3140

summary(batting_avg_sample2)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2330  0.2460  0.2490  0.2581  0.2717  0.2990

summary(batting_avg_sample3)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2190  0.2425  0.2610  0.2586  0.2775  0.2920

summary(batting_avg_sample4)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2190  0.2522  0.2615  0.2606  0.2767  0.3020

　４つの標本セットが出来ました。繰り返しますが、これは方法を説明しているだけで、STATCAST を利用する上では、あまり意味のないことです。
試しに、母集団と比べてみましょう。

length(batting_avg)

[1] 129

summary(batting_avg)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.1960  0.2420  0.2560  0.2581  0.2750  0.3320

　たまたま、batting_avg_sample2の標本の平均と一致してしまいましたが、偶然です。また、標本抽出は母集団を調査できないからやるわけですから、batting_avg_sample2 が優秀だから、これを使うというようなこともできませんよね。

複数の標本セットを作る意味は、標本平均値の平均、分散を取ると、母集団の平均、分散に近づくことがわかっているからです。

mean(c(0.2693, 0.2581, 0.2586, 0.2606))

[1] 0.26165

　今回の場合、標本サイズ 10 と小さいので、信頼性はないですし、STATCAST の利用上、意味はありません。

　試しに、標本サイズ50 で、標本の数 2 でやってみましょうか。

summary(batting_avg_sample1)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2140  0.2412  0.2555  0.2578  0.2720  0.3230

summary(batting_avg_sample2)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2140  0.2420  0.2565  0.2589  0.2750  0.3220

mean(c(0.2578, 0.2589))
[1] 0.25835

　かなり近づきましたが。これはチートに近いですね。母集団129しかなくて、50個ですからね。現実的な調査じゃないです。50個を2回調べられるなら、最初っから全数調査でいいと思います。

　今回は、かなり強引な感じが否めませんが、何かに応用していただければ嬉しいです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up