はじめに
2020-07-01よりDataRobotのAuto ML無料トライアル がリリースされたということで、実際に無料トライアルを申し込んでDataRobotのAuto MLを使ってモデルを作成してみました。
今回はあまり時間なかったため、すぐに使えるデータセットとして、個人で細々と収集していたボートレースのデータセットを使って、予想モデルを作成しています。
結論から言うと、データの前処理など一切行わず、2時間もかからないうちに予想モデル作成 → 予想確率算出まで行うことができたので、そのあたりを紹介できればと思います。
また予想モデルの精度についても、学習データセットの特徴量設定が甘かったりするなか、各レースで一番確率の高い組合せ(2連単)の1点のみを100円ずつ買い続けた結果、回収率が84.1%(控除率が25%なので、75%の回収率が目安となる)で、一定の予想精度は出たのかなという所感です。
予想モデル作成までの手順
手順は以下のとおり。
- 学習データセットの準備
- モデル作成
- 予想確率算出
学習データセットについて
対象期間:2011年1月1日~2020年5月31日
対象レース数:500,799
主な条件:レース前の時点で欠場艇がいないこと
1着-2着の組合せ(いわゆる2連単/全30通り)を予測する分類問題としている。
DataRobotのAuto MLを使って、予想モデルを作成
上記の学習データセットをCSVファイル形式で準備し、インポート処理を行う。
学習データセットの取り込みが完了すると、各特徴量に関するサマリが表示される。
「開始」を押すと、学習が開始される。(モデリングモードはデフォルトの「クイック」のまま)
「モデル」タブを見ると、各モデルで学習している様子を見ることができる。
予想データセットの準備
対象期間:2020年6月1日~2020年7月13日
件数:6,319レコード
主な条件:レース前の時点で欠場艇がいないこと
予想モデルを使用して予想確率を算出
「予測」タブから予想データセットを取り込ませて予測値を算出する。
1分もしないうちに完了。結果は「予測をダウンロード」から取得できる。
予想確率の検証
各レース、30種類の中から最も確率が高い1-2着の組合せの2連単を100円ずつ買ったとして、回収率・的中率を算出
■ 検証結果
対象レース数:6,319
購入した組合せのうち、F返還で払い戻しになったレース数:58 → 回収率・的中率の分母は6,319-58=6,261 とする。
的中数:1,498
払戻金額:526,430円
⇒ 回収率:84.1%/的中率:23.9%
ボートレースは控除率が25%なので、75%の回収率を上回ることができるかが目安になるが、84.1%の回収率という結果で思っていたより良い結果となった。
所感
時間があまり無いなかで、じっくりマニュアル類を見ないまま作業を進めたものの、UIがとても分かりやすく、予想モデル作成 → 予想確率の算出まで一気に行うことができた。
自分で機械学習のモデルを作成するのであれば、例えば、カテゴリ変数はワンホットエンコーディングしたりと学習データの前処理でかなりの時間を要するところ、このあたりに気をかける必要がなくモデル作成ができるのが嬉しいところです。