この記事は「スポーツアナリティクス Advent Calendar 2019」の7日目の記事です。
はじめに
本記事では、野球における「投手が次に何を投じるかを予測する」ことを目的とした論文を紹介します。テーマは「野球における投手が次に投じる球種を予測する」というものです。今回はこの分野での最新の論文を紹介します。
その前にまずは、そもそもなぜ僕が球種予測に興味を持ったのかについてお話ししたいと思います。
球種予測について
野球における数理的タスクには以下のようなものがあります。
- 投球と故障の関係性(この医療分野が一番活発)
- 選手の獲得戦略
- 戦略面の最適化
- 試合結果や打席結果などの結果系の予測
- 球種選択や作戦等の意思決定の予測
今回のタスクは一番最後の「球種選択や作戦等の意思決定の予測」に当たります。もしこの意思決定に関する予測の精度を高めることができれば、意思決定のモデリングが可能になったといえます。
例えば、配球のモデリングが可能になれば、いつもとは異なる配球をしたシーンを検出することができるようになり、選手の心理状況の変化を可視化することに繋がると考えています。
もしそうなれば、いわゆる「流れ」や「心理的影響」の定量化に一歩近づくことができるのではないでしょうか?この点に僕は非常に魅力を感じたため、意思決定の予測タスクに興味を持ちました。
野球における意思決定の予測タスクを行う場合、予測対象になりうるものは2つあると考えています。球種予測と作戦予測です。作戦予測の場合は、発生するケースがかなり限定されてしまうため、予測対象にするには難しいと考えられます。(ex.スクイズは0,1アウトかつランナーが3塁にいるケースのみが予測対象となる)
一方、球種予測の場合は全投球が予測対象となるため、予測モデルを作成するのが容易であると考えられます。そのため、予測対象として扱いやすいのです。
これらの理由により、僕は球種予測というタスクに興味を持ちました。ちなみに、配球予測という意味では投球のコースまで予測する必要がありますが、コース予測の場合は「意図したところに投手が投げ分けることができるとは限らない」、「そもそも投手がどこに投げたかったのかという情報がデータとして残っていない」という理由があるため、予測困難であり(かつ意思決定の予測からは話がそれてしまう)、研究では予測対象から外されています。
論文紹介
今回紹介するのは"Using Multi-Class Classification Methods to Predict Baseball Pitch Types"という論文です。2018年、Journal of Sports Analyticsから出版されています。
論文のざっとした内容
背景
球種予測をテーマにした研究はいくつもあるが、多くは2値(ストレートor変化球)のみを予測するもので多クラス(球種そのもの)を予測する研究は2つしかない。さらにその2つの研究もワールドシリーズの試合だけを予測していたり、投手を4人だけに絞っていたりと非常に限定的。
そこでこれらの2つの論文を拡張し、より汎用的な予測を行った際にどれだけの精度を得ることができるのかを知りたい。
目的
長期間のデータでもっと多くの投手を対象として球種予測を行う際に以下のことを調査する。
- 最も良いパフォーマンスを発揮する手法とその精度
- 予測精度と投手の成績指標は関係性があるのか
- 予測するうえで重要な変数は何なのか
- 実際のゲームをリアルタイムで予測したときにどれだけの精度を残せるか
結果
- LDA,SVM,ランダムフォレストの3つの手法で7種類の球種を予測したところランダムフォレストが最も精度が高く,その精度は66.62%だった
- 予測が難しい投手ほど、FIP1やWAR2といった指標も良い傾向にあった
- 予測に重要な変数として投球数,カウント,前投球の情報などが挙げられた
- リアルタイムで予測すると59.07%の精度を得られた
論文紹介メイン
Qiitaでまとめていたのですが、ちょっと見栄えが悪かったので、pptにまとめてSlideShareで公開することにしました。こちらからご覧ください。
おわりに
今回の記事では、野球において投手が次に何を投げるかを予測した研究を紹介しました。意思決定をモデリングすることは流れや心理的影響の定量化につながると述べましたが、それ以外にも
- 現場での実際の作戦面への応用
- ゲーム等のアルゴリズムの改良
- メディアにて公開することでエンターテインメントの1種とする
のような応用先が考えられます。僕は特に最後のエンターテインメントの1つとしての可能性に非常に期待しています。2017年の日本シリーズではzunoさんという投球予測AIが視聴者と投球予測バトルを行うというイベントがありました。(参考)
実際にAIが予測した結果をリアルタイムで紹介し、視聴者がそれに関して議論を交わす。こんな新しいスポーツ観戦の楽しみ方があってもいいのではないかと思っています。
ちなみに、私自身も昨年度のスポーツデータ解析コンペティションにて「LSTMを用いた球種予測モデルの構築」というテーマで研究結果を発表しました。大変ありがたいことに、昨年度の野球分析部門にて最優秀賞を受賞させていただきました。3
本年度のスポーツデータ解析コンペでの分析事例は、Advent Calendar 25日目の加藤さんの記事で紹介されるとのことなので、楽しみに待ちましょう。
-
内容についてはここでは割愛しますが、統計数理研究所刊行の「スポーツデータ解析におけえる理論と事例に関する研究集会 第6巻」にて報告書としてまとめられています。 ↩