はじめに
ベースボールの本場であるMLBではセイバーメトリクスやpitch f/x、トラックマンといったデータサイエンスおよびそれに関係するテクノロジーが普及して久しいが、日本でもここ数年着実に浸透してきている。
トラックマンはカープを除いた11球団で導入されている(そのカープもラプソードという同様の機器を導入している)し、データスタジアム株式会社のBaseball LABやDELTA株式会社の1.02、ライブリッツ株式会社のNPB BIPなどプロ野球データを取り扱うサービスも充実してきており、プレーヤー側だけでなく我々プロ野球ファンもデータを様々な側面で分析できる環境が整いつつある。
それに伴って野球データを用いた研究も少しずつ出てくるようになった。今回はその中で、「投球予測」に関する研究およびデータ分析コミュニティの動きを少し紹介しつつ、個人的な所感を述べていこうと思う。
投球予測に関する研究動向
日本統計学会のスポーツ統計分科会がスポーツデータを用いた分析にスポットを当てたスポーツデータ解析コンペティションという会を開催しており、この会で投球予測に取り組んだ研究が取りあげられている。
参考までに第9回のコンペティションに参加された方の報告記事を載せておく。
- LSTMを用いた球種予測モデルの構築:柴田頼仁,鈴木秀男(慶應義塾大学)
ググったけど論文は公開されていない模様。。abstractも無し。 - 自然言語処理を用いた野球投手の投球パターンの予測:田原康寛,松岡弘樹,山守杏奈,本田拓也,安藤梢,西嶋尚彦(筑波大学)
こちらも論文は未公開。abstractのみの模様。
2014年のプロ野球データのうち、1球で終わった打席以外の52,291打席/218,486球の投球データを用いて、LSTMで球種予測を実装。
球種、投球コース、球種×投球コースの3種類をそれぞれoutputするモデルを構築。球種はストレート/スライダー/カーブ/シンカー/フォーク/チェンジアップ/特殊球/カットボールの9種類。特徴量については特に言及されていないので、恐らく球種と投球コースのみを入力していると思われる。
予測モデルの精度(accuracy?)は、球種が47.06%、投球コースが46.09%、球種とコースの組み合わせが46.74%。
投球予測に関するデータ分析コミュニティの動き
日本のデータコンペPF(たぶん)最大手のSIGNATEで、球種および投球コースを予測するコンペが2020/4/28~7/28で開催されていた。
train/public/privateの分割がなかなか厄介で、train:2017年1年分のデータ、public:2018年、private:2019年という構成。当然testデータにおいては直前投球のラベルがわからないのでLSTMのような時系列のモデリングは全くもって役に立たず、対象選手の投球/打撃成績などの外部データをいかに活用するかが鍵になっていた。
時系列モデルが有効になるようにtestデータを構築するのは主催者としても骨が折れるということは想像がつくが、個人的には時系列的な特徴をうまく抽出して使うところに投球予測の醍醐味があると思うので、その点では少々残念なコンペであった。
余談だが、筆者は同時開催されていたアイデア部門で最優秀賞の栄誉に預かった。SNS等への共有は規約上NGなので、別途開催されるであろう成果発表会にて内容を報告したい。
所感
筆者は重度の野球ファン(宗教戦争が起きるため球団名は明かさないが察しはつくと思われる)であるため、「精度の高い投球予測を実装して贔屓の球団に採用してもらって勝利に貢献したい」というような妄想を度々するのだが、こういったスタンスから直近の動向を見ていると実用性、特にExplain-abilityの観点が抜け落ちているように思う。
LSTMで高精度に投球予測できます、といっても投球予測モデルを実装した端末を試合中ベンチに持ち込むことは野球規約上できないし、事前にありえそうな投球パターンから次投球を一通り推論してミーティングで浸透させるというのも無理がある。選手としては数球分の過去投球の組合せとその場合の次の投球(として確度の高いもの)を何通りも丸暗記している余裕はないだろう。
となると、こういった投球予測をそのまま実戦の場に適用するのであれば、ミーティングで簡単に指示できて、各選手が簡単に覚えられるように予測の根拠なり、当該投手の印象と合致する特徴をoutputできることが要件になるはず。
例を挙げるなら、「千賀投手はカウント0-2からは三球勝負をしてくる事が多くて、その際右打者にはフォーク、左打者にはフォーシームを投げてくる傾向がある」(※あくまで適当な例であり、多分実情とは異なる)というような推論ができるようにモデルを構築する必要がある。
そういったモデルとして適しているものの一つは、決定木だろう。
LSTMでもSHAPのような指標を使えば特徴量の重要度を出すことは可能だが、学習時には膨大な投球データが入力されるであろうことを考えると各特徴量とtarget(球種)の関係性が全体としては相殺されて殆どわからなくなることも想定される。一方で決定木であれば、全データを参照するのではなくまずGainの大きいエッジに着目し、分岐条件・球種の偏り・サンプル数を確認することで、より効率的に予測結果を伝達することができると考えられる。
もしかしたらDeNAのようにデータサイエンティストを活用している球団では既にこの点に気づいて同様の取り組みを始めているかもしれない。決定木を使っているかどうかはさておき。。
ここまで述べてきたが、本記事には「既存研究は実用性を全然考えてないイケてない研究だ!」などと批判する意図は1ミリもないことを付記しておく。投球予測はそのままアプリケーションとして活用する以外にも、例えば自軍投手の投球傾向の偏りを分析するというような活用法があり、投球予測モデルの投球予測アプリケーションへの実用性自体がおおもとの研究の価値を失わせるわけではないからだ。
ただ、研究の領域においても実用性の観点にスポットライトを当てた新たな取り組みが出てくることを期待したい。