イチローは日本プロ野球で生涯打率1位の選手よりもすごいのかベイズ統計で検証する
Photo by Johnmaxmena2 CC BY / 出典 www.jiji.com
日本プロ野球の選手で生涯打率で一番は誰でしょうか?私は単純にアメリカのメジャーでも活躍されているイチロー選手だと思ったのですが、実は公式の日本プロ野球の生涯打率ランキングトップはロッテで活躍したL リー選手で、イチロー選手の名前は載っていません。
というのも、キャリアの途中でメジャーに移籍したイチロー選手は、前述のランキングに公認されるための規定である、日本プロ野球での生涯打数4000には届いていないためです。こちらに2000打数以上の選手の打率ランキングのデータがあるのですが、これを以下のように可視化するとイチロー選手を含む何人かの、日本での生涯打数が4000に届かない選手が先ほどトップであった、L リー選手よりも非公式ながら打率が高いのがわかります。
オレンジの選手は4000打数に届いていない選手です。
打数がある程度以上大きくないと運に左右されて真の実力が見えてこないから、ランキングには打数の規定がある、というのはリーズナブルな考えだと思いますが、打数は少し少なくても打率のより高いイチロー選手と、打数がある上で打率の高いL リー選手、真の実力を比べた場合どちらがより良かったといえるのでしょうか?実はこういう質問に、ベイズ統計を使ったA/Bテストの手法を応用して答えることができます。
ベイズ統計では、例えば「プロ野球選手の打率だったら普通はこんなものだろう」という事前知識から分かる確率分布をスタート地点として、そこに実際に得られたデータを追加していくことで、この確率分布を修正していく、というアプローチをとります。データを入れる前の確率分布をPrior、データによって修正されたバージョンの確率分布をPosteriorと呼びます。
ExploratoryのA/Bテストアナリティクスビューをつかって、イチロー選手とリー選手の実例で、これを見ていきましょう。
まず、野球選手の打率というものは、2割から3割5分の間に分布し、平均すると2割7分ほどであるという事前知識から、Priorの分布を以下のように設定します。
そこにイチロー選手とリー選手の打数と打率のデータを入れると、Posteriorとして、二人の真の実力(真の打率)の確率分布を見ることが出来ます。Aがイチロー選手、Bがリー選手です。
どちらが優れているかを確率分布で表すとこのようになります。
数値で言うと、99.84%の確率で、イチロー選手の方が高い真の打率を持っているであろうと言えることになります。
さすがにイチロー選手ほど打ちまくれば、記録のルール上は打数が規定に達していなくても、ベイズ統計的にはすでに打率の実力が一番であることは証明されている、という結果になりました。
ベイズ統計を使ったA/Bテストに興味のある方は、こちらに弊社CEO西田によるHow-toを含めた紹介ビデオがあるのでよかったら見てみてください。
データ分析をさらに学んでみたいという方へ
今年10月に、Exploratory社がシリコンバレーで行っている研修プログラムを日本向けにした、データサイエンス・ブートキャンプの第3回目が東京で行われます。上記のようなデータサイエンスの手法を、プログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に、参加を検討してみてはいかがでしょうか。こちらに詳しい情報がありますのでぜひご覧ください。