LightGBMで競馬AIの簡単な実装をしよう！

Last updated at 2025-06-02Posted at 2024-06-17

2025/06/01 更新
STEP1 データの取得のコードを更新し、取得年度を2025年までのデータに変更、現在のネット競馬での動作を確認しました。機械学習のパートは更新中です🙇
2025/06/02 更新
スクレイピングのリクエスト上限が以前より早く、データを一気に取得することができないようです。鋭意修正中です！

はじめに

機械学習の代表的な応用例として、競馬の結果を予測する「競馬AI」があります。
今回は競馬のデータを取得し、その結果を予測する機械学習モデルを構築、実際に予測してみるところまでを簡単なコードの解説を交えて紹介できればと思います。

実行環境

・macOS 13.2.1
・Python 3.10.13

STEP1 : データの取得: 1. スクレイピング先のサイトについて; 2. スクレイピングを行うコード; 　　　
STEP2 : データの確認・前処理: 1. データ構造の確認; 2. 目的変数の前処理; 3. 特徴量エンジニアリング; 　　　
STEP3 : モデリング: 1. モデリング; 　　　
STEP4 : 性能評価: 1. 走破時間の予測性能評価; 1. 利益・回収率の性能評価

カラム名	説明
race_id	レースごとに与えられるID
馬	馬の名前
騎手	騎手の名前
馬番	出走レーンの番号
走破時間	完走までのタイム
オッズ	最終的なオッズ
通過順	チェックポイントを通過した際の順位
着順	最終的な着順
体重	馬の体重
体重変化	直近（のレース？）からの体重の変化
性	馬の性別。牡馬（牡）、牝馬（牝）、騸馬（セ）のいずれか
齢	馬の年齢
斤量	馬にかかる負荷
上がり	最後の600mのタイム
人気	馬の人気。ランキング
レース名	レース名
日付	レースの開催日
開催	開催場所、開催日
クラス	開催レースの参加条件
芝・ダート	芝かダートか
距離	レースの走行距離
回り	右回り（右）、左回り（左）、直線（直）のいずれか。芝というデータもあるが何を意味するのか不明
馬場	馬場の状態。良、不、稍、重のいずれか
天気	天気。曇、晴、雨、小、雪など
場id	場名を整数値でカテゴリ化したもの
場名	レースの会場名。札幌、函館、福島、新潟など10会場

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

LightGBMで競馬AIの簡単な実装をしよう！

はじめに

実行環境

もくじ

STEP1 : データの取得

1. スクレイピング先のサイトについて

2. スクレイピングを行うコード

STEP2 : データの確認・前処理

1. データ構造の確認

2 . 目的変数の前処理

3 . 特徴量エンジニアリング

モデリング

1. モデリング

性能検証

1 . 走破時間の性能検証評価

2 . 利益・回収率の性能評価

まとめ