LoginSignup
4
14

More than 3 years have passed since last update.

【第1回】Python で競馬予想してみる ~ 環境設定 とデータの取得 ~

Last updated at Posted at 2020-11-23

 機械学習、ディープラーニング(違いもわかってない💦)が、競馬予想やあんなことやこんなことに使えるのではないか?と思い始めてみました

初めに

何をすればよいのかグーグルさんに聞いてみたのだ

  • 開発環境
  • データの取得
  • データの前処理
  • モデルの学習
  • モデルの評価
  • モデルの運用

開発環境

Anaconda3 のインストール

Googleさんで [ Python 開発環境 ] と検索してみると Google Colaboratory と Anaconda3 の 2 択なのか
とりあえず試してみる
私的に相性の良さそうな Anaconda3 をインストール

とりあえず開発環境が整えば良し

他に良い開発環境があれば、後で試せばよいのだ

データの取得

ターゲットフロンティアの出力データを使用

[python 競馬予測 ] と検索してみると、netkeiba.com のデータをスクレイピングする方法が多い
20数年前から趣味でホームページを作成していた経験から、スクレイピングでのデータ取得にはなんとな~く抵抗あり
HTMLの仕様が変わったら・・・サイトの仕様が変わったら・・・使えないのは嫌なのだ

で、もう少し調べると、ターゲットフロンティアのデータを CVS で出力して使用している方を発見!
長年、JRA-VANデーターラボ会員の私にはピッタリなのだ

ターゲットフロンティアのレース検索で CVS 出力

ターゲットフロンティアでは、開催分析でも同様の出力はできるのだが簡単に各馬の前走 ID が出力できる競争検索で出力
とりあえず競馬新聞で予想するのと同じように、データー上での最新のレースの着順を目的変数に、前走より n 走前のデータを説明変数にしたいのだ

レースID 各データ 前走ID
ID01 *** ID10
ID02 *** ID11
ID10 *** ID20
ID11 *** ID21
ID20 *** ID30
ID21 *** ID31

出力したデータを、レースIDと前走IDでマージして好きなレース数を横に連結するのだ

レースID 各データ 前走ID 1走前データ 前々走ID 2走前データ 3走前ID
ID01 *** ID10 *** ID20 *** ID30
ID02 *** ID11 *** ID21 *** ID31
ID10 *** ID20 *** ID30
ID11 *** ID21 *** ID31
ID20 *** ID30
ID21 *** ID31

ターゲットフロンティアでのデータ出力方法

スクリーンショットを参考に
スクリーンショット1.png
スクリーンショット2.png
スクリーンショット3.png

4
14
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
14