機械学習、ディープラーニング(違いもわかってない💦)が、競馬予想やあんなことやこんなことに使えるのではないか?と思い始めてみました
#初めに
何をすればよいのかグーグルさんに聞いてみたのだ
- 開発環境
- データの取得
- データの前処理
- モデルの学習
- モデルの評価
- モデルの運用
#開発環境
###Anaconda3 のインストール
Googleさんで [ Python 開発環境 ] と検索してみると Google Colaboratory と Anaconda3 の 2 択なのか
とりあえず試してみる
私的に相性の良さそうな Anaconda3 をインストール
とりあえず開発環境が整えば良し
他に良い開発環境があれば、後で試せばよいのだ
#データの取得
###ターゲットフロンティアの出力データを使用
[python 競馬予測 ] と検索してみると、netkeiba.com のデータをスクレイピングする方法が多い
20数年前から趣味でホームページを作成していた経験から、スクレイピングでのデータ取得にはなんとな~く抵抗あり
HTMLの仕様が変わったら・・・サイトの仕様が変わったら・・・使えないのは嫌なのだ
で、もう少し調べると、ターゲットフロンティアのデータを CVS で出力して使用している方を発見!
長年、JRA-VANデーターラボ会員の私にはピッタリなのだ
####ターゲットフロンティアのレース検索で CVS 出力
ターゲットフロンティアでは、開催分析でも同様の出力はできるのだが簡単に各馬の前走 ID が出力できる競争検索で出力
とりあえず競馬新聞で予想するのと同じように、データー上での最新のレースの着順を目的変数に、前走より n 走前のデータを説明変数にしたいのだ
レースID | 各データ | 前走ID |
---|---|---|
ID01 | *** | ID10 |
ID02 | *** | ID11 |
ID10 | *** | ID20 |
ID11 | *** | ID21 |
ID20 | *** | ID30 |
ID21 | *** | ID31 |
出力したデータを、レースIDと前走IDでマージして好きなレース数を横に連結するのだ
レースID | 各データ | 前走ID | 1走前データ | 前々走ID | 2走前データ | 3走前ID |
---|---|---|---|---|---|---|
ID01 | *** | ID10 | *** | ID20 | *** | ID30 |
ID02 | *** | ID11 | *** | ID21 | *** | ID31 |
ID10 | *** | ID20 | *** | ID30 | ||
ID11 | *** | ID21 | *** | ID31 | ||
ID20 | *** | ID30 | ||||
ID21 | *** | ID31 |