Edited at

POG上達のためのデータ解析5 〜測尺データをSVM

More than 1 year has passed since last update.


はじめに

 POGのシーズンがやってきました。

 知らないうちに某競馬サイトが測尺データを公開するようになっていたのでこれを使って活躍馬を予想できるか試してみました。


手順

 1. 測尺データを収集。とりあえず2012年〜2016年生まれを対象とした。

 2. POG期間(2歳〜3歳ダービー終了までの期間)の獲得賞金を算出。

 3. 獲得賞金をクラス分け。{0:0万, 1:700万以下、2:3000万以下、3:3000万以上}

 4. 説明変数を測尺データ(馬体重とか体高とか)、目的変数をクラス分けの数値 とし、2012〜2015年生まれの馬のデータからSVMで分類モデルを作成。


結果

解析元データはこんな感じ。

※18/5/26訂正 モデルの学習の際に学習用データではなく、データ全体を与えている凡ミスに後で気がついた。。

訂正して学習等データを与えたところ、正解率は0.33程度に下がってしまった。これでは使い物にならなさそう。

SVMで学習&推測 わりと精度が高い気がする。

クラス3と推測された馬はたしかにちゃんと活躍している。


まとめ

活躍馬を予測できそう。

ただ測尺データが公開されている馬の数は全体の数に比べてかなり少ないため、POGより一口馬主向きの解析かもしれない。


おまけ

 説明変数同士の関係性を可視化してみた。凡例が賞金クラス。

 賞金クラスが高いほど各変数のばらつきが小さい。

 バランスの取れた体型の馬がよく走るということだろうか。