STATCAST
MLB 公式の Bassball Savant から利用します。
savant
STATCAST は、MLB で利用されているトラッキング技術を使用したデータで、1球ごとのピッチングデータ、バッティングデータ、フィールディング、ベースランニング、キャッチングデータを、直接、CSV データとして利用出来るほか、R の baseballr パッケージでも使用できます。
STATCAST が導入されたのは 2015年なので、当然にデータも 2015年以降のものに限定されます。
FanGraphs
FanGraphs から直接、ダウンロードまたは、STATCAST 同様に R の baseballr パッケージでも利用できます。
MLB 公式推奨の FanGraphs では、ゲームごとのデータ、バッティング、ピッチング、フィールドの成績データ、セーバーメトリクス指標が利用できます。
2002年までのゲームごとのデータは、RETROSHEET のデータが使われています。
Lahman
Lahman データは、1871年以降のバッティング、ピッチングデータ、フィールディング統計、順位、チーム、ポストシーズンデータ等を利用できます。
サイトでは、Access, CSV, Microsoft SQL Server 用の SQL バージョンが用意されていますが、CSV が利用しやすいでしょう。また、R では、Lahman パッケージを利用できます。
データの再構築
基本的には、以上3つのデータを必要な形に再構築しながら取り組んでいくことになると思います。
その他のデータ
他に利用できるデータとして、以下の2つを載せておきます。
Out of the Park Baseball
Out of the Park Baseball はセーバーメトリクスに利用するデータではなく、MLB 公式ライセンスのシミュレーションゲームです。
MLB 公式記事の2023年のポストシーズンの予想企画「Out of the Park Baseball simulates the '23 World Series winner」などでも利用されているように、選手データを編集できるので、シミュレーションのツールとして使えます。
また、GM としてゲームプレイができるので、MLB のフロントオフィスの運営やロースタールールの理解にも有用です。
選手データには、BASEBALL-REFERENCE の ID、マイナー ID が含まれています。
以前は NPB データも含まれていましたが、権利関係で現在は、削除されています。
OOTP は、毎年、3月中旬頃に新しいバージョンが発売されます。
早期予約では安く購入できますが、シーズン中も頻繁に割引が行われます。
例年、シーズンが終了すると80%オフで販売されています。
Mac、Windows PC で利用できます。スタンドアロン版と Steam 版があります。
+