0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

競馬予想AI作成 #2 データ準備

Last updated at Posted at 2024-12-10

まえがき

前回記事👇

競馬予想AI作成 #1 コンセプト

今回は、AIにつっこむためのデータを準備する。
データはnetkeibaさんより、スクレイピングで収集。
(利用規約を見たところ、スクレイピングに関する記載は無かった。24/12/10)

取得データ詳細

今回予測したいのは馬毎の走破タイムなので、「結果・払戻」ページの結果表とその時の
レース条件(距離や競馬場等)を取得。

説明変数

レース条件

・競馬場 (カテゴリ)
・レース名 (カテゴリ)
・距離 (数値)
・馬場状態 (カテゴリ)
・芝/ダート/障害 (カテゴリ)
・コース (カテゴリ)

各馬のデータ

・枠 (数値)
・馬番 (数値)
・馬名 (カテゴリ)
・性齢 (数値)
・体重 (数値)
・体重増減 (数値)
・斤量 (数値)
・騎手による減量 (数値)
・騎手名 (カテゴリ)
・人気 (数値)
・トレセン (カテゴリ)
・調教師 (カテゴリ)

目的変数

・走破タイム

一見関係無さそうなレース名や馬名は入れるか迷ったが、予測したい馬が過去に何回か
走っている場合、精度向上に繋がる可能性が捨てきれなかったので一旦入れておいた。

また、本来なら入れないといけない説明変数(血統や調教データ)がもっとあるはずだが
取得に結構な時間がかかるので今回は上記でのデータで試してみる。

データ取得期間は2019/1~2024/10とした。
(現役競走馬の最高齢を8歳として、その馬が過去に走っている可能性のある期間)

取得したデータのcsvはこんな感じ👇(今回使わない項目も入ってます)
image.png

今回はここまで。

次回はモデルの選定と予測までやっていきます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?