まえがき
前回記事👇
今回は、AIにつっこむためのデータを準備する。
データはnetkeibaさんより、スクレイピングで収集。
(利用規約を見たところ、スクレイピングに関する記載は無かった。24/12/10)
取得データ詳細
今回予測したいのは馬毎の走破タイムなので、「結果・払戻」ページの結果表とその時の
レース条件(距離や競馬場等)を取得。
説明変数
レース条件
・競馬場 (カテゴリ)
・レース名 (カテゴリ)
・距離 (数値)
・馬場状態 (カテゴリ)
・芝/ダート/障害 (カテゴリ)
・コース (カテゴリ)
各馬のデータ
・枠 (数値)
・馬番 (数値)
・馬名 (カテゴリ)
・性齢 (数値)
・体重 (数値)
・体重増減 (数値)
・斤量 (数値)
・騎手による減量 (数値)
・騎手名 (カテゴリ)
・人気 (数値)
・トレセン (カテゴリ)
・調教師 (カテゴリ)
目的変数
・走破タイム
一見関係無さそうなレース名や馬名は入れるか迷ったが、予測したい馬が過去に何回か
走っている場合、精度向上に繋がる可能性が捨てきれなかったので一旦入れておいた。
また、本来なら入れないといけない説明変数(血統や調教データ)がもっとあるはずだが
取得に結構な時間がかかるので今回は上記でのデータで試してみる。
データ取得期間は2019/1~2024/10とした。
(現役競走馬の最高齢を8歳として、その馬が過去に走っている可能性のある期間)
取得したデータのcsvはこんな感じ👇(今回使わない項目も入ってます)
今回はここまで。
次回はモデルの選定と予測までやっていきます。