【勝手に考察】中日の大島は本当にセカンドゴロ製造機なのか

Posted at 2015-10-31

@gg_hatano さんの素晴らしいブログ記事がある。

中日の大島は本当にセカンドゴロ製造機なのか

私は野球は全く分からないのですが、結論として気になることが書いてあります。

大島は3位でした。ただ、打席数は多いです。
セカンドゴロ製造機と認定してよさそうです。

この意味をちょっと考えてみようと思います。

3位でもいいんですか？

結局大島は、セカンドゴロの割合は 3 位でした。
しかし、セカンドゴロ製造機と認定していいそうです。
その理由は、大島は他のバッターに比べて打席数が多いからだそうです。
これはどういうことでしょうか？

例えば 3 打席中 1 回ヒットを打った打者 A と、100 打席中 30 回ヒットを打った打者 B とでは、どちらが優秀かを考えてみて下さい。
打率だけで見ると、打者 A は 0.33、打者 B は 0.3 と、打者 A の方が勝っています。
しかし、3 回中 1 回ヒットを打っただけで、3 割バッターと呼んでいいのでしょうか？
1 回のヒットは、単なるまぐれ当たりかもしれません。

つまり、打席数が少ないと、打率を計算したとき、その値は信頼できないということです。
逆に、打席数が多いほど、打率の値は信頼できるようになる、ということです。
今回、大島の打席数は多いので、セカンドゴロの割合の値は他の打者より信頼できるため、セカンドゴロ製造機として認定してよい、ということです。

信頼区間

統計学では、このように計算した値がどのくらい信頼できるのかを「信頼区間」によって表します。
実際に上記ブログのデータを使って信頼区間を計算してみましょう。

まずは上記ブログからデータを取ってきます。

library(XML)

data <- readHTMLTable("http://gg-hogehoge.hatenablog.com/entry/2015/10/31/210811", header = TRUE, which = 2, encoding="utf-8") 
data <- setNames(data, iconv(colnames(data), "utf-8", "sjis"))

knitr::kable(data)

	チーム	選手	結果	回数	打数	割合
1	ロッテ	岡田　幸文	二ゴロ	30	208	0.1442
2	ソフトバンク	髙谷　裕亮	二ゴロ	29	208	0.1394
3	中日	大島　洋平	二ゴロ	84	608	0.1382
4	楽天	後藤　光尊	二ゴロ	58	440	0.1318
5	巨人	アンダーソン	二ゴロ	35	269	0.1301
6	楽天	藤田　一也	二ゴロ	57	447	0.1275
7	巨人	立岡　宗一郎	二ゴロ	50	397	0.1259
8	中日	森野　将彦	二ゴロ	31	248	0.1250
9	楽天	銀次	二ゴロ	41	354	0.1158
10	ヤクルト	雄平	二ゴロ	71	616	0.1153

ここでは、セカンドゴロの発生モデルとして二項分布を仮定します。
二項分布の比率の信頼区間は binom パッケージによって計算できます。
binom::binom.exact() 関数によって、信頼区間の上限と下限を求めます。

library(dplyr)
library(binom)

result <- data %>%
  group_by(`選手`) %>%
  do(binom = binom.exact(.$`回数`, .$`打数`)) %>%
  summarise(`選手`, `回数`=binom$x, `打数`=binom$"n", 
            `下限`=binom$lower, `割合`=binom$"mean", `上限`=binom$upper) %>%
  arrange(desc(`割合`))

knitr::kable(result, digits = 3)

選手	回数	打数	下限	割合	上限
岡田　幸文	30	207	0.100	0.145	0.200
髙谷　裕亮	29	208	0.095	0.139	0.194
大島　洋平	84	608	0.112	0.138	0.168
後藤　光尊	58	439	0.102	0.132	0.167
アンダーソン	35	269	0.092	0.130	0.176
藤田　一也	57	447	0.098	0.128	0.162
立岡　宗一郎	50	395	0.095	0.127	0.163
森野　将彦	31	248	0.087	0.125	0.173
銀次	41	354	0.084	0.116	0.154
駿太	44	381	0.085	0.115	0.152

このままではちょっとわかりにくいので、可視化します。

library(ggplot2)

ggplot(result, aes(x=`選手`, y=`割合`)) + 
  geom_point() +
  geom_errorbar(aes(ymin=`下限`, ymax=`上限`)) + 
  scale_x_discrete(limits=result %>% arrange(`割合`) %>% .$`選手`) +
  coord_flip()

大島のセカンドゴロ率は、3 位ですが、上位二人に比べて信頼区間が非常に狭く、信頼できる値であることがわかります。

さらに

上図は、セカンドゴロ率の大きい順に並べていますが、今度は信頼区間の下限の大きい順に並べてみましょう。

ggplot(result, aes(x=`選手`, y=`割合`)) + 
  geom_point() +
  geom_errorbar(aes(ymin=`下限`, ymax=`上限`)) + 
  scale_x_discrete(limits=result %>% arrange(`下限`) %>% .$`選手`) +
  coord_flip()

信頼区間の下限で並べると、大島がトップに来ます。
信頼区間の下限は、セカンドゴロ率は最低でもこのぐらいはあるよ、という目安になるので、大島のセカンドゴロ率の高さは揺るぎないものであることがわかります。

一方、信頼区間の上限で並び替えると、次のようになります。

ggplot(result, aes(x=`選手`, y=`割合`)) + 
  geom_point() +
  geom_errorbar(aes(ymin=`下限`, ymax=`上限`)) + 
  scale_x_discrete(limits=result %>% arrange(`上限`) %>% .$`選手`) +
  coord_flip()

今度はロッテの岡田がトップになりました。
信頼区間の上限は、セカンドゴロ率は最高でここぐらいまで上がるよ、という目安になります。
つまり、ロッテの岡田はセカンドゴロ製造機となるポテンシャルが最も高い男だということです。
ロッテの監督は彼の打席をもっと増やしてみて、セカンドゴロの量産に挑戦してみてはいかがでしょうか？

Enjoy!

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up