# 【番外編第2話】競馬データで学んだ、時系列 ML のリーク監査と確率較正 🏇📚

Posted at 2026-05-20

⚠️ 先に重要なお知らせ (= 全部読まなくてもこれだけは):

本記事は 競馬データを題材にした時系列機械学習の検証記録 であり、馬券購入・自動投票・投資判断を推奨するものではありません。

記載する ROI は 特定条件下の backtest または検証ログ であり、 将来の成績・利益を保証するものではありません。

20 歳未満の方は、競馬法第 28 条により勝馬投票券を購入・譲り受けすることはできません。

契約サービス由来の 生データ、個別レース・個別馬の予測値、買い目、再構築可能な特徴量、投票連携手順 は公開しません。

📖 3 分要約 (= 長い記事ですが、結論だけ):

リークを潰したら構造 ROI は 80% 程度まで落ちた (= 控除率に飲まれる)。「ROI 800% モデル」は全部 leak だった

そこから 市場オッズと合成 (= Benter 較正) + 戦略選定 (= EV 閾値) を重ねて、 backtest 上 100% 超え候補が数戦略出た

ただし backtest は 確定オッズで評価 しており、 実投票時点では odds drift で期待値がズレる可能性 がある。「forward 検証に進める候補」に過ぎない

競馬 ML で一番重いのはモデル設計ではなく、データ基盤 (30%) と特徴量設計 + リーク監査 (40%) だった

これは何:
弊社 Qiita 連載「建築 × AI」シリーズの 番外編続報 です。前回記事 (= 「ROI 140% より先に税金が気になった話」) で触れた競馬 AI、その後 1 ヶ月で 9 代血統 / Plackett-Luce / Benter 較正 / LambdaRank まで詰め込んだので、自分が通った道と、同じ道を 1970 年代から通ってきた世界中の先人を並べて紹介します。

📌 本記事は中間報告 で、一部の検証・起動確認は投稿時点で 進行中 / 予定 の状態を含みます。完了 / 失敗 / 延期は後続の「結果編」で報告します。

この記事で分かること 📖

競馬 ML で なぜ二値分類だけでは足りない のか (= Plackett-Luce が必要な理由)
Plackett-Luce / Benter 較正 / Kelly がそれぞれ何をしている道具なのか
backtest ROI が 高すぎるときに何を疑うべきか (= リーク監査)
競馬 AI を作る上で、 モデルよりデータ基盤とリーク監査が重い理由

⚠️ 注意: 本記事中の ROI は、評価段階によって (1) odds 特徴量なしモデルの proxy 評価、 (2) HR 払戻ベース walk-forward、 (3) 真 odds 付き戦略 backtest が混在します。以降では、可能な限り評価系を明記します。さらに、三連単系の ROI は 分散が非常に大きい ため、 ROI 単体ではなく、 bets 数・的中数・年別 ROI ・最大 DD ・ bootstrap 信頼区間を併記する必要があります。本記事は中間報告として点推定を載せ、 5/25 結果編で分散込みで評価します。

第0章オチを先に言います 🎯

弊社の競馬 AI、前回記事 (= 2026-05 上旬公開) から今日まででだいたいこうなりました。 ROI は 評価系で値が違う ため、必ず「評価条件」列と一緒に読んでください。

⚠️ 以下の数字は未使用期間での利益保証ではなく、検証条件ごとの観測値です。戦略選定後の同じデータ系列での再評価、確定オッズでの backtest、サンプルサイズの制約などを含み、 forward (= 未知の期間) の結果を約束するものではありません。

Phase	モデル	評価条件	ROI	備考
Phase 0	TFJV 1954-2025 raw 抽出 (= 17.3M レコード)	—	—	データ基盤
Phase 1	LightGBM baseline (= 25 feat、 odds 特徴量抜き)	odds 特徴量なしモデル / proxy 評価	132.5%	後続の真 odds 払戻評価とは別系統
Phase 2	+ 集計型血統 (Sire / BMS / Phase 1-4)	同上 (= proxy 評価)	141.5%	Bayesian smoothing
Phase 3	leak 監査後 (= chaku_num leak 等排除)	HR 払戻ベース / 3 年 walk-forward	77 - 81%	現時点の評価設計で観測された構造 ROI
Phase 4	+ LE 込み 254 feat (= label encoding 全部)	odds 特徴量なしモデル / proxy 評価	単勝約 140% / 三連単 N=1 で 134.4%	戦略評価前、振れ大
Phase 5	+ Plackett-Luce 三連単 (= N=1 LE +56pt)	6 年 backtest / 真 odds 払戻評価	avg 136% (= spread 203pt、 2022 69%・2023 78%・2025 272%)	hold-out で良く見えた N=1 改善が真 odds 6 年で年別に大きく崩れ、単独採用に耐えない overfit 候補として不採用
Phase 6	+ Benter 較正 (α, β) + 真 odds	6 年 backtest / EV ≥ 1.5 N=1 戦略	200.3% (= 旧 MLE 部分学習 α=0.31/β=0.79、単年 50% 含む、 spread 300 pt)	model × market blending、旧 S6 (= 5/21 に deprecated)
Phase 7	Benter MLE 全期間再学習	n=20,626 race / MLE	α=0.2825, β=0.8597 (= ΔLL +0.1569)	旧 S6 で n=25 サンプル崩壊確定 → 戦略切替
Phase 8	新 MLE で re-validation (= S6 deprecated 確定)	6 年 walk-forward / 各戦略	旧 S6: mean 307% / n=25/年 / spread 969 pt → 採用不可	サンプル崩壊検出、新主力候補抽出
Phase 9	S6_v2 主力候補 + 年別 resampling 参考レンジ	6 年 walk-forward / S6_v2 (= MLE EV ≥ 1.2 N=5)	mean 187.6% / 参考レンジ [130%, 249%] / n=353/年 / spread 195 pt	レンジ下側 2.5% 点は 130% (= 「統計的に保証」ではなく forward に進める相対候補)
Phase 10	1988-2025 (= 約 38 年) 長期 backtest / 中量 cache (208 列、 +UM)	38 年 walk-forward / S6_v2	mean 178.1% (= 6 年 187.6% から gap -9.5 pt、 100%+率 79%、 n=531/年)	「直近 6 年だけの偶然」説明を弱める材料、ただし戦略選定後の再評価 + 特徴量セット不一致 (= 254 列 vs 208 列) に注意

つまり「リークを消したら 現時点の評価設計で観測される構造 ROI は 80% 程度」がベースで、そこに 戦略 (= EV 閾値 / 馬券種選択 / 較正) を重ねて初めて 100% を超えに行く、という構造です。 Phase 1 の 132.5% は「odds 抜き proxy 評価」の数字で、 Phase 6 の 200.3% は「真 odds × 戦略 backtest」の数字、 同じ ROI と書いてあっても比べるものではない。

⚠️ Phase 5 の重要訂正: 前回記事で触れた hold-out 三連単 N=1 ROI 134.4% (= LE +56pt) は、 5/20 真 odds 6 年 backtest で avg 136% / spread 203 pt / 2022 69%・2023 78%・2025 272% と年別に大きく崩れ、 単独採用に耐えない overfit 候補 として不採用となりました。三連単 (1,0) N=10 ev≥1.5 (= avg 105% / spread 34pt) を留保候補として残し、主力は単勝系に寄せています。「真 odds で評価しなおす」という工程を入れたことで、初めて overfit を切り出せた例です。

🧪 馬券種別「100%+ 戦略」の数 (= 真 6 年 backtest、 EV × N × α/β grid、計 882 戦略): 単勝 43 件 / 三連単 17 件 / 複勝 0 / 馬連 0 / ワイド 0 / 馬単 0 / 三連複 0。 今回の特徴量・期間・ grid では中間 5 馬券種で 100% 超え戦略が出なかった。これも真 odds 評価を入れないと出てこない結論で、「構造不可能」と断定するものではない点に注意。

そして、 1 ヶ月で何度も「自分で思いついた」と思ったアイデアが、全部 1986 年 - 1994 年の論文に既出だった。これが今回の一番の学び。もちろん細部のモデルや実装は進化しているが、基本論点は驚くほど変わっていない。

📅 5/25 月曜 22 時 に「実戦結果編」を出す予定。本記事は 実戦直前の中間報告 で、競馬 ML を始めてみたい人向けの理論 + 実装ツアーです。

📖 読み方ガイド (= 長い記事なので):

理論だけ知りたい人 → 第2章・第3章

実装の罠を知りたい人 → 第4章・第5章

forward 投入前の検証設計を知りたい人 → 第8章

論文リストだけ持って帰りたい人 → 末尾「参考文献」

第1章前回のあらすじと「素朴な疑問」 📝

前回記事で自分は「LightGBM + 40 次元特徴量で単勝 hold-out ROI 140%」と書きました。それ自体はちょっとした数字ですが、開発を進めるうちに 2 つの素朴な疑問 が出てきました。

そもそも競馬の確率はどうモデリングするのが正しいのか?
- LightGBM 二値分類で「1 着か否か」を学習していたが、これ競馬という 「全頭が 1 つの race で競う」構造 を取りこぼしているのでは?
- 「3 着の馬」の情報は学習に使えないのか?
モデルの出力確率を、そのまま期待値計算に使っていいのか?
- LGBM の出力 30% は統計確率 30% と違う。そこをどう整合させるのか?
- 市場 (= 確定オッズ) に含まれる集合知をどうモデルと合成するのか?

調べ始めてすぐ、 これらの疑問は 30 - 40 年前に既に整理されていた ことが分かりました。ここからが本題。

第2章競馬 ML の「世界史」 (= 1986 - 2024) 🌐

競馬 ML の系譜は思っていたよりずっと古い。主要なマイルストーンを時系列で並べます。

2.1 1973 Harville: 競馬確率モデルの「原点」

Harville (1973, JASA) は 「3 頭以上のレースで、 1 着から 3 着までの順位確率をどう計算するか」 に数学的整理を与えた 代表的な初期研究 の一つ。アイデアはシンプルで、 正規化済みの 1 着確率 を p_i と書くと、

P(i が 1 着、 j が 2 着) = p_i × p_j / (1 - p_i)

となる。より一般に各馬の強さを s_i と書けば、

P(i, j) = s_i / Σs × s_j / (Σs - s_i)

と表せて、これが後段の Plackett-Luce 型逐次選択モデル の形です。 1 着を 1 頭引いたあとの残り集団で「次の 1 着」を確率計算する、という構造がここで出揃っています。

このシンプルさが 今でも三連単 / 三連複確率計算のベースラインとしてよく使われており、弊社の Phase 5 で採用した Plackett-Luce モデル はこれと 同型の逐次選択モデル (= Plackett 1975 と Luce 1959 が独立に同じ構造に到達した) と整理されています。

2.2 1986 Bolton & Chapman: MNL の競馬応用

Bolton & Chapman (Management Science, 1986) は McFadden の Conditional Logit (= 多項ロジット) を競馬の win-betting / pari-mutuel に適用した 代表的な初期研究。「馬 i の強さ π_i を、各馬の観察特徴ベクトル x_i の線形関数で表す」

π_i = exp( β^T x_i )
P(馬 i が 1 着) = π_i / Σ_j π_j

これ、数式を見るとほぼ softmax です。つまり、 競馬の 1 着確率は「馬数が可変な softmax 分類」 と整理できる。

これを言われて自分はぶっ飛びました。自分がふんわり LightGBM で「1 着か否か」の二値分類をやっていたのは、 馬数可変を無視した雑な近似 だったということです。

補足: 二値分類でも race_id ごとに予測値を正規化し、評価も race 単位で行えば実務上の近似としては使えます。問題は学習損失が race 内の相対順位を直接見ていない点で、 LambdaRank や Plackett-Luce 最尤損失を使う方が構造とは合います。弊社の Phase 1 - 4 は二値分類 + race 内 softmax 正規化で走っていて、これでも hold-out 上は動く。ただし forward で思った順位が出ないケースは損失設計まで戻るべき、という整理。

2.3 1994 Benter: 競馬 ML の古典的代表作

William T. Benter は 1980 年代後半から香港競馬でコンピュータ賭博をやって、 数年で大規模な利益を上げたと報じられている 人物 (= 具体額は各種報道で数字が揺れるため、ここでは一次文献で確定した数字ではないことを断っておきます)。 1994 年の "Computer Based Horse Race Handicapping and Wagering Systems: A Report" は競馬 ML の古典的代表作として知られ、 30 年たった今でも後続論文が広く引用します。

Benter の主張:

モデルを Bolton-Chapman 流 MNL で構築する
モデル出力だけを信じてはいけない。市場 (= 確定オッズに織り込まれた集合知) は強力で、単独モデルでは越えられないことが多い
モデル × 市場を α / β で blending する

P_public(i)  =  normalize( 1 / odds_i )      # race 内 で 正規化 した public implied probability
P_final(i)   ∝  ( P_model(i) ^ α )  ×  ( P_public(i) ^ β )

簡略化して「1 / odds」と書くことも多いが、 実装上は race 内で正規化した public implied probability を使う (= odds には控除率が含まれており、そのままでは確率にならない)
α = モデル出力をどれだけ信じるか
β = 市場オッズをどれだけ信じるか
α = 1, β = 0 → モデルのみ
α = 0, β = 1 → 市場のみ
探索 grid としては α, β を広めに取り、文献・実務例では 市場側 β が残るケースが多い (= 弊社でも β = 0.86 が出た)

弊社の Phase 6 で入れた「Benter 較正」はここ。部分学習 (= n = 483 race) で α = 0.3143, β = 0.7945、続いて全期間 (= n = 20,626 race) で再 MLE して、値が α = 0.2825, β = 0.8597 (= ΔLL = +0.1569) に落ち着きました。「モデルよりも市場をかなり信じる」較正で、これが出るということは 弊社モデルは中堅程度の強度 ということです。 Benter の議論でも、単独モデル予測をそのまま賭けに使うより、 市場オッズに含まれる public information と組み合わせる 重要性が強調されており、弊社で観察した「市場側を強く信じる較正」と方向性が一致しています。

注意点: α / β が動いた後で 単勝 EV ≥ 1.5 N=1 戦略の ROI 200% が維持されるかは別問題。 5/22 に α=0.2825 / β=0.8597 で戦略 ROI の re-validation を実行予定。 ± 10 pt 以内で動かなければ「MLE 値安定」、 ± 30 pt 超動いたら「戦略が MLE 依存」と判定して見直し。

2.4 1995-2010 拡張: SVM / ベイズ / ニューラル

Lo, Bacon-Shone, Busche (1995) は Harville モデルを三連複・三連単に拡張して大規模検証。 Edelman (2007) は SVM で試したが、 Bolton-Chapman 流 MNL より強くなかったと結論。 Davoodi & Khanteymoori (2010) はニューラルで試したが、これも当時は MNL ベースより強くなかった。

つまり 2010 年頃までは「ベースラインは MNL + 集計特徴量、そこから大きく上に行く手は無かった」 というのが業界共通認識。

2.5 2010s 後半 - 現代: 勾配ブースティング + 深層学習

XGBoost (2016) と LightGBM (2017) が登場して状況が変わります。ベンチマーク上は同じ特徴量で MNL より 2 - 5 pt 精度が上がるようになった。弊社も Phase 1 の LightGBM 採用はここの流れ。

最近はさらに深層学習系が立ち上がってきて、

TabNet (arXiv 2019 / AAAI 2021) — 表形式データで Entity Embedding を学習 (= 種牡馬 ID を 16 次元ベクトル化)
CatBoost — 高 cardinality カテゴリ変数に強い
DeepFM / DCN — 交互作用を自動抽出
URIN v4.7 — 北米系商用サービスが AUC-ROC 0.944 を主張。ただし独立検証された共通ベンチマークではないため、 SOTA というより 「商用側の高性能主張」 として扱うのが安全

弊社は Phase 5 で TabNet を試したが、 集計型 (= sire_win_rate 等) より弱かった ので採用見送り。 sire_no が 7,000 + クラスあって、過学習が抑制しきれなかった。 Benter が 1994 年に「シンプルな集計 + Bayesian smoothing は強力」と書いていたのは、確かにそうだと体感する結果でした。

第3章「競馬に合いそうな確率モデル」を 1 つずつ解剖する 🔬

ここからがマニアックゾーンです。興味ない章は飛ばして OK。

📖 章内ざっくり早見表:

3.1 Plackett-Luce — 「1 着 → 2 着 → 3 着を順番に引くサイコロ」で三連単確率を計算

3.2 Bradley-Terry — 「馬 A と馬 B が 1 対 1 で走ったらどっちが勝つか」の確率

3.3 Bayesian smoothing — 「n=1 だけで勝率 100% になるノイズ」を平均化で抑える

3.4 Wright COI — 100 年前の遺伝学公式で近交度を数値化

3.5 Nicks 指標 — 「種牡馬 × 母父」の相性スコア

3.6 Kelly 公式 — 賭け金配分。「半分だけ守る (Half-Kelly)」が実務

3.7 LambdaRank — race 内の順位を直接学習する損失

3.8 Isotonic — 出力確率を実統計に寄せる単調関数較正

3.1 Plackett-Luce (= 弊社三連単で採用)

ざっくり: 「福引のくじ引き」と同じで、全馬の強さ π_i を持つ玉を袋に入れて、 1 着を引く → 残りから 2 着を引く → 残りから 3 着を引く、を確率計算で表すモデル。これで「18 頭 race の三連単 4896 通りの確率」を全部出せる。

数式で書くと、各馬に strength パラメータ π_i を与えて、

P(順序 = (i₁, i₂, i₃))
  = (π_{i₁} / Σπ)   × (π_{i₂} / (Σπ - π_{i₁}))   × (π_{i₃} / (Σπ - π_{i₁} - π_{i₂}))

1 着を引く → 残りから 2 着を引く → 残りから 3 着を引く、という 逐次引き抜き
1 着確率だけから、全 permutation 確率が計算できる

弊社の Phase 5 実装は、 LightGBM の出力確率 p_i を race 内で p_i / Σ_j p_j に再正規化 し、これを Plackett-Luce の strength π_i として使い、 18 頭 race なら 18 × 17 × 16 = 4896 通り の三連単確率を全部計算して、期待値上位 N 通りに賭ける。 (= raw score / logit を使う実装であれば、 race 内 softmax exp(score_i) / Σ exp(score_j) になる)

注意点: Plackett-Luce は IIA (Independence of Irrelevant Alternatives) 仮定を持っている。「1 頭を除外しても、残りの順位確率比は変わらない」というかなり強い仮定。実際の競馬では コース取りの影響 や 逃げ馬が 1 頭しか居ないときの展開効果 があって、厳密には成立しない。 Henery (1981) や Stern (1990) はここを緩めた 正規 / ガンマ 系モデルを提案している。

実務的には Plackett-Luce が圧倒的に計算が軽くて実装容易で、 「厳密ではないけどベースラインとして強い」 ので、弊社も当面これで行きます。 forward で観測された ROI のバイアスを見て、必要なら Henery / Stern に切り替える余地を残しておく。

3.2 Bradley-Terry (= 弊社採用していない、が馬同士比較で強力)

「馬 i と馬 j が 1 対 1 で走ったら、馬 i が勝つ確率」をモデル化する古典。

P( i beats j ) = π_i / (π_i + π_j)

Plackett-Luce は Bradley-Terry の N 馬拡張と見ることもできる。 1 着確率を推定するだけなら Plackett-Luce で十分だが、「3 番人気が 1 番人気を直接倒す確率」という個別質問を直接学習したいときには Bradley-Terry の方が自然。弊社は現状三連単 ROI を評価軸にしているので採用していないけど、将来「頭数を絞った馬連・馬単」の戦略を作るときには再検討候補。

3.3 Bayesian Smoothing (= 弊社血統集計で全面採用)

ざっくり: 「1 戦 1 勝の種牡馬 を勝率 100% と集計するとモデルが騙される」ので、事前に「とりあえず α 勝 β 敗したと思って集計する」ことで、サンプルの少ない値を平均寄りに引き戻す処理。機械学習の文脈では Pseudocount とか Beta-Binomial Prior とか呼ばれる、古典的だが強力な手法。

sire_win_rate  =  ( 父産駒 の 1 着 数 + α )  /  ( 父産駒 の 出走 数 + α + β )

α = 5, β = 15 を採用 (= 「事前に 5 勝 15 敗したと思って集計」)。これで n = 1 出走の種牡馬 が「勝率 100%」とか「勝率 0%」とかいうノイズだらけの値を出してモデルを騙しに来る事態を防ぐ。

補足: α / β は一例であり、本来は global base rate p₀ と事前強度 m に対して α = m · p₀, β = m · (1 - p₀) のように決めるのが自然です。弊社の (α=5, β=15) は prior mean 25% で、競馬の「父産駒 1 着率」としてはやや高めに見えるが、集計単位 (= 父系全体 / 距離帯別等) での validation 上の安定性 を見てこの値を採用しています。集計軸を変える際には α / β を都度見直す余地があり。

Bayesian smoothing は、 Benter (1994) が「集計系特徴量を入れる時は必ず prior 平滑化」と強調していて、 30 年後の弊社も α = 5, β = 15 を採用。数式は 100 年前と同じ。

3.4 Wright COI (= 1922 年のインブリード係数、弊社 9代まで拡張)

ざっくり: 「父系と母系を辿って同じ祖先が何代前に何回出るか」を 1 つの数値 F にまとめたもの。 F が高いほど近交度が高く、競走成績や健全性に不利な傾向があるとされる統計。

Sewall Wright が 1922 年に提案した インブリード係数 (Coefficient of Inbreeding, COI)。

F = Σ_A  ( 1/2 )^(n_A + n'_A + 1)  ×  ( 1 + F_A )

A は「父系と母系の両方から共通して辿れる祖先」
n_A = 父から A までの世代数
n'_A = 母から A までの世代数
F_A = A 自身の COI

弊社は TFJV UM.parquet の 3 代血統からスタートし、公開データ + 手元 DB 経由での補完で 9 代まで拡張 した COI を計算 (= 211,409 馬 × 2048 列の pedigree_9gen.parquet を構築)。 5,993 馬 (= 約 2.8 %) が F > 0 を持つ。

⚠️ サニティチェック中: F > 0 が 2.8% は 9 代拡張としては 直感的にかなり低い ので、 (a) 9 代全部が埋まっている馬の割合、 (b) 祖先 ID の名寄せ率、 (c) 同一祖先の name / ID 表記揺れ、 (d) Northern Dancer など既知クロスが検出できるか、 (e) F のヒストグラム、 (f) 世代別重複祖先検出数、を順に検査中。数字は改訂の可能性がある。

インブリードと競走成績の関係は、学術文献でも体系的に検証されています。

Scientific Reports (2018) "Founder-specific inbreeding depression affects racing performance in Thoroughbred horses" — 豪サラブレッド 135,572 頭 (= 2000-2011 出走) + 創始馬まで遡る 257,249 頭の系譜で、近交と競走成績の関係を検証
Proceedings of the Royal Society B (2022) "Inbreeding depression and the probability of racing in the thoroughbred horse" — 6,128 頭の欧州・豪サラブレッド × 297K SNP genotypes で、 F_ROH が 10% 増えると出走可能性が 7% 低下

つまり COI は 近交に伴う競走成績・健全性リスクを拾う候補特徴量 として有用。ただし影響は祖先・集団・評価指標に依存するため、「F が高いほど必ず弱い」とは扱わず、線形ではない形でモデルに寄与するものと見ています。弊社では COI をそのまま特徴量に入れた だけで、細かいクロス (= 3 × 4 とか 4 × 5 の系統重ね) は別特徴に分けていません。ここは改善余地があるエリア。

3.5 SII × BSII Nicks (= 種牡馬 × 母父相性、弊社採用)

TrueNicks 的な発想 を参考に、公開データから 独自の簡易 Nicks 指標 を構築。商用 TrueNicks そのものではなく、 Sire Index / Broodmare Sire Index / 組合せ勝率を使った独自実装です。

SII (Sire Index)        = sire の 平均 産駒 勝率 を normalize
BSII (Broodmare Sire Index) = bms の 平均 産駒 勝率 を normalize
Nicks 風 Score (sire, bms)  = SII × BSII × ( 組合せ 産駒 の win_rate / 期待 win_rate )

「Sunday Silence 系種牡馬 × Northern Dancer 系母父」みたいな組合せで、 期待を超える勝率 が出るペアに高いスコアがつく。弊社の nicks_score.parquet は 3.39 M 行で、 LightGBM に 1 列で渡しています。

3.6 Kelly Criterion (= 賭金配分、弊社検討中)

ざっくり: 「期待値がプラスのとき、 資金の何 % を賭けると長期成長率が最大化するか」の公式。ただし真の勝率を過大推定すると即破産するので、実務では Half-Kelly (= 半分だけ賭ける) や Quarter-Kelly が一般的。

John Kelly (1956, Bell Labs) が通信理論の文脈で出した、 「資金の何% を賭けると長期成長率が最大化するか」 の公式。

f* = ( bp - q ) / b

f* = 資金の賭ける割合
b = オッズ - 1 (= 純利益倍率)
p = 真の勝率
q = 1 - p

「期待値がプラスの馬にだけ、 Kelly 比で賭ける」というのが Benter の結論でもあり、数値投資の古典でもあります。ただ競馬の場合 p (= 真の勝率) が推定値であって、過大推定すると即破産する。そこで実務では Half-Kelly (= 0.5 × f*) や Quarter-Kelly が一般的。弊社は 5/23 時点ではまだ 固定 1 点 100 円 のフラットベットで、 Kelly は戦略確定後 (= 6 月以降) の課題として残してあります。

3.7 LambdaRank (= 弊社採用候補、未実装)

Burges (2007) Microsoft Research のランキング学習。順序関係を直接学習する損失。 LightGBM では objective="lambdarank" で利用可能で、 race ID を group_key に渡すと 「race 内で 1 着馬を上位に並べる」 ことを直接最適化する。

弊社は現状二値分類 + softmax 正規化でやっているが、 LambdaRank は race 内で正解馬を上位に置くランキング損失を直接最適化 できるため、二値分類より競馬の構造に合いやすい。ただし LambdaRank と Plackett-Luce 最尤は同じではない ので、 NLL / calibration / ROI で 別途比較 する必要がある。これは 6 月中の TODO。

3.8 Isotonic Regression (= 弊社採用、較正)

ざっくり: 「LightGBM が出した 30% は、実際の統計で当たる確率 30% とは限らない」ので、過去データで 「モデル出力何 % → 実際何 %」 の対応表を作って補正する処理。「単調増加だけは守る」制約を入れて過学習を抑える。

LightGBM の出力を 「実際の勝率」 に較正する後処理。 Platt scaling (= sigmoid 較正) と Isotonic regression が主流で、 Isotonic は 単調増加 制約だけ課してデータ駆動で細かい補正を行う。

from sklearn.isotonic import IsotonicRegression
iso = IsotonicRegression(out_of_bounds="clip")
iso.fit(p_model_raw, y_true)
p_calibrated = iso.transform(p_model_raw)

これを Benter blending の前に通すと、 P_model(i) と 1 / odds_i のスケールが揃って α / β の MLE 推定が安定します。弊社は 024/models/isotonic_calibrator.pkl に保存済。

第4章弊社開発フェーズ史 (= 1 ヶ月の旅を 1 章に圧縮) 📜

過去の HANDOFF を漁って、弊社が通った道を整理します。これから競馬 ML を始める人が 「同じ罠を踏まない」 為の地図として置いておきます。

Phase 0: 生データ抽出 (= 2026-04 中旬)

契約範囲内のローカル分析で、サービス提供元 (= TFJV / TARGET frontier JV) のローカル DB 5.58 GB から 1954 - 2025 の 17.3 M レコード規模 を Parquet 化
17 種類の record (SE / RA / UM / HR / HN / SK ...) を全部抽出 (= 個別馬 / 個別 race / 個別予測値は本記事では公開しない)
罠: 仕様書がない独自 binary。 offset を 1 列ずらして数日ハマる。前回記事で触れた 「toroku が全部 77」事件 がここ
⚠️ データ本体・抽出物・再構築可能な変換手順は本記事では扱いません。利用可否は各自の契約と利用規約に従って確認が必要です

Phase 1: LightGBM ベースライン (= 2026-04 下旬 - 05 中旬)

25 特徴量 × LightGBM 二値分類で学習
最初は ROI 800% とか出て ぬか喜び。全部 データリーク
リーク源を順に潰す:
- SE.tansyo_odds → 5/19 に LEAK 確定 (= 5 着までしか値が入っていない、 1 着馬だけ系統的高値)
- chaku_num (= 着順数値版) → 988% の ROI を出して発覚、 feature_pool.LEAK セットに追加
リーク除去後の 3 年 walk-forward 推定で 構造 ROI 77 - 81% (= 控除率 20% に単体では勝てない)
★ 教訓: 「hold-out ROI が 200% を超えたら、まずリークを疑う」を直感として持つ (= 少なくとも弊社環境では、 200% 級の数字はリーク監査の赤信号でした)

Phase 2: 集計型血統 (= 2026-05-17、 1 日で一気に)

弊社内部の血統設計メモに沿って Day 1 - Day 6 を 1 日で完走
Sire / BMS / PGS / MDS の年別集計を Bayesian smoothing (α=5, β=15) で平滑化
距離適性 / コース適性 / 系統 (Keito) / Nicks / Wright COI 3 代
新 champion = v20260517_full_ped_lgbm_no_odds_ped_phase1 (= ROI 132.5% → 141.5%、 +15.9 pt)
TabNet で Entity Embedding を試すも 集計版より弱かったので採用見送り

教訓: 「最新手法が必ずしも強いとは限らない」。 Benter が 30 年前に「集計 + 平滑化は強い」と書いていた通り。

Phase 3: 5/19 大リーク検出 (= 半日損失、だが結果的に真値確定)

全 ROI 評価を HR.parquet.TanPay_1 ベースに切替 (= 「単勝配当」を直接払戻として使う)
chaku_num leak を feature_pool.LEAK に入れて 988% leak を完全消滅
3 年 walk-forward 推定で構造 ROI は 80% 程度 と確認
「今回の特徴量・評価設計では、モデル単体で控除率を安定に超えるのは難しい」 という現実を受け入れ
→ ここからが「Value Betting + 市場オッズ blending + 馬券種戦略」の旅が始まる

Phase 4: LE 込み 254 特徴量 (= 2026-05-20)

Label Encoding でカテゴリ変数を全部数値化した 254 特徴量版
三連単 N=1 hold-out ROI 134.4%、単勝 hold-out ROI 約 140%
ただしこれが 真値か overfit かは backtest 単体で判定不能 (= odds を使っていない eval pipeline)
→ Phase 5-6 で odds を入れる

Phase 5: Plackett-Luce 三連単 + overfit 確定 (= 2026-05-20)

LightGBM の 1 着確率を softmax 正規化して π_i に
18 頭 race で 4896 通りの三連単確率を全部計算
上位 N=1/10/20/50/70/100 を評価 grid とする
⚠️ N=1 LE +56pt は真 odds 6 年 backtest で年別に大きく崩れる (= avg 136% / spread 203pt / 2022 69%・2023 78%・2025 272%) → 単独採用に耐えない overfit 候補 として不採用
三連単 (1,0) N=10 ev ≥ 1.5 は avg 105% / spread 34pt で 留保候補
N=30 grid も後続で評価 (= 完了後にレンジ更新)

Phase 6: Benter 較正 + 真 odds backtest + 戦略確定 (= 2026-05-20 同日)

過去 6 年分の真 odds を揃えて戦略評価 (= 全 7 馬券種 × EV 閾値 × N 通り × α/β grid、計 882 戦略)
単勝 EV ≥ 1.5 N=1 戦略の真 6 年 ROI = 200.3% (= ただし 2021 は 50%、 spread 300 pt)
Benter MLE 部分学習: α = 0.3143, β = 0.7945 (= n = 483 race)
馬券種別 100% 超戦略数: 単勝 43 / 三連単 17 / 複勝 0 / 馬連 0 / ワイド 0 / 馬単 0 / 三連複 0
結論: 単勝を主力とし、中間 5 馬券種は完全不採用
cross-bet ranking (= 馬券種横断 EV 上位 N) も backtest で 100%+ 戦略ゼロ、採用見送り

Phase 7: Benter MLE 全期間再学習 (= 2026-05-21 05:54)

5/20 部分学習 (= n=483) → 5/21 全期間 (= n=20,626) で再 MLE
α = 0.3143 → 0.2825, β = 0.7945 → 0.8597 (= ΔLL = +0.1569)
旧値は 024/models/benter_alpha_beta_history/20260521-055448.json に backup
→ 旧主力 (S6 = EV≥1.5 N=1) の re-validation を続いて実施

Phase 8: 新 MLE re-validation で S6 (旧主力) サンプル崩壊確定 (= 2026-05-21 06:14)

eval_tansyo_10yr.py で 6 年 walk-forward を新 MLE 値で再 backtest:

戦略	旧 MLE (5/20)	新 MLE (5/21)	判定
EV≥1.5 N=1 (= 旧 S6)	avg 200.3% / n=186/年	avg 307% / n=25/年 / spread 969 pt	サンプル崩壊 = 採用不可
EV≥1.2 N=5	(未検証)	avg 187.6% / n=353/年 / spread 195 pt	新主力候補
(1,1) EV≥2.5 N=5	(未検証)	avg 184.5% / n=47/年 / spread 208 pt	サンプル微妙

新 MLE で α がモデル方向に下がった (= 0.3143 → 0.2825) ことで、 EV ≥ 1.5 を通る race が 1/8 に減って しまい、旧主力 S6 の統計力が崩壊。「α を動かすと EV 分布が大きくずれる」という当然のことを、現場で体感する結果となりました。

→ 5/23 forward 観測では旧 S6 を deprecated し、 S6_v2 (= EV ≥ 1.2 N=5) を主力候補として観察。

Phase 9 (= 確定戦略 + 年別 resampling 参考レンジ): S6_v2 主力候補化

6 年年別 ROI を 10,000 回 resample し、 年別 resampling 参考レンジ (= 厳密な信頼区間ではない、 stability interval 相当) を算出。サンプル n=6 (= 年) は弱いが、 spread を数値化する簡易指標として採用:

ラベル	戦略	mean ROI	参考レンジ	spread	n/年	役割
S6_v2 (= 新主力候補)	単勝 MLE EV ≥ 1.2 N=5	187.6%	[130%, 249%]	195 pt	353	resampling 参考レンジ下側 2.5% 点が 130%
B (= 安定代替)	単勝 (1,1) EV ≥ 2.0 N=10	157.2%	[132%, 177%]	89 pt	212	レンジ幅最小、暴れ抑制
C (= 最安定)	単勝 MLE EV ≥ 1.1 N=10	111.3%	(TBD)	44 pt	1988	「死なない」戦略
~~S6 旧~~	~~単勝 MLE EV ≥ 1.5 N=1~~	307%	[77%, 620%]	969 pt	25	deprecated (= n=25 崩壊、レンジ下限 77% で真値 100% 下回り可能性排除できず)

⚠️ ここでの [130%, 249%] 等は、 利益を統計的に保証する信頼区間ではなく、選定後データに対する年別 resampling の参考レンジ (= stability interval) です。サンプルは n=6 (= 年) と弱く、また 882 戦略 grid から「最高」を拾った後の多重比較・選定バイアス・ odds timing leak を含みます。「forward 検証に進める候補として相対的に有望」という位置づけに留めます。未知の期間・異なるオッズ取得タイミング・市場変化に対する下限を意味するものではありません。

forward は S6_v2 を base line として forward 観測 で走らせ、 1 ヶ月観測で 50 - 80% 級の暴れ年を引いたら 安定代替 B (= レンジ下限 132%) に切替、という設計です。

📊 resampling レンジ下限が 100% を切る戦略は forward で避ける が弊社の内部ルール。旧 S6 が「mean 307% 出ているのに採用不可」となったのは、レンジ下限 77% で「真値が 100% を下回っている可能性がこの resampling 設計で排除できない」から。この判断基準は forward 開始後も「mean だけ見て戦略拡張しない」というガードとして機能するはず。

Phase 10: 1988-2025 (= 約 38 年) 長期 backtest で戦略ロバスト性を補強 (= 2026-05-21 07:12)

弊社の 1988-2025 (= 約 38 年) 長期 backtest は 8.4 分 で完了しました。 40 cores (= Spark2 20 cores × 2) 並列 + 中量 cache 軽量化で、「半日コース」と諦めかけていた検証が 当日中 に実現した、というのが一番嬉しい報告です。 (※ 内部では「40 年」と呼んでいるが、実期間は 1988-2025 で 38 年分)

cache 拡張の工夫 (= 軽量 → 中量)

完全 v9 cache (= 1614 列、 LE 込み 254 feat) を 1986 まで拡張するのは pipeline 6 段階で半日コース。そこで弊社は 段階的 cache 拡張 を採用しました:

軽量 cache (= SE + walk_forward_aggs)        ← 130 列、 build 15 秒
↓ +UM (= 馬データ 78 列、 血統 系 含む)
中量 cache (= SE + wfa + UM)                  ← 208 列、 build 27 秒
↓ +KS (= 騎手 28 列) +CH (= 調教師 52 列)
重量 cache (= 288 列、 完全 v9 254 feat に 近づく)  ← 将来 拡張

軽量 cache で 38 年 backtest は 全戦略 ~78% (= 控除率と一致)。学習力が完全に控除率に飲まれて edge を出せない。これ自体「LightGBM が過学習して高 ROI を出したのではない、真値は控除率」という null hypothesis を確認した価値ある結果。

中量 cache (= UM 血統系 78 列追加) で同じ 38 年 backtest を回すと:

戦略	6 年 (cache_master_v9 254 feat)	38 年 (中量 cache 208 列)	gap	100%+率	評価上の注意
S6_v2 = MLE EV ≥ 1.2 N=5	187.6%	178.1%	-9.5pt	79% (= 38 年中 30 年)	戦略探索後の再評価 / 特徴量不一致 / 確定オッズ
S10_v2 = MLE EV ≥ 1.5 N=5	250.9%	288.9%	+38.0pt	66%	同上
S8_v2 = (1,1) EV ≥ 2.5 N=5	184.5%	279.9%	+95.4pt	87%	同上
S7_v2 = (1,1) EV ≥ 3.0 N=5	201.5%	377.3%	+175.8pt	71%	同上 + n=52/年と薄い
S9_v2 = (1,1) EV ≥ 2.0 N=10	157.2%	218.6%	+61.4pt	84%	同上

⚠️ 表の「評価上の注意」列は、全戦略共通で (1) 戦略探索後に同じデータ系列で再評価している、 (2) 6 年側と 38 年側で特徴量セットが完全には一致しない (254 列 vs 208 列)、 (3) 確定オッズで backtest しており実投票時点の odds drift は反映していないの 3 点を指しています。

主力候補 S6_v2 が 6 年と 38 年で gap -9.5 pt。「直近 6 年だけの偶然」という説明は弱まり、 forward 検証に進める根拠が強くなりました。

⚠️ 重要な限界: 6 年側は cache_master_v9 (= 254 feat) を使い、 38 年側は中量 cache (= 208 列) で 完全に同じ特徴量セットでの比較ではありません。また、戦略探索後の再評価であり「完全未使用期間」でもない。「gap -9.5pt = ロバスト確定」と断定するより、 「直近 6 年だけの偶然ではない可能性が補強された」 くらいが正確です。 forward は引き続き別系列の検証と位置づけ。

5/23 からの並列 forward 候補 (= 5 戦略)

38 年 + 6 年の二重検証を通過した戦略を並列で走らせ、 1 ヶ月後 (= 6 月下旬) に戦略別 forward ROI を比較する設計です:

ラベル	較正	EV	N	38 年 avg	6 年 avg	100%+率	役割
S6_v2 (= 主力候補)	MLE	1.2	5	178%	188%	79%	★ 1 ヶ月観測 base line
S7_v2 (= 最高 mean)	(1,1)	3.0	5	377%	201%	71%	n=52/年と薄い、暴れ注意
S8_v2 (= 100%+率最高)	(1,1)	2.5	5	280%	184%	87%	n=89/年
S9_v2 (= 安定)	(1,1)	2.0	10	219%	157%	84%	n=213/年
S10_v2 (= 高 ROI 安定)	MLE	1.5	5	289%	251%	66%	n=132/年

⚠️ S7_v2 の avg 377% は n=52/年 = サンプル薄 であり、「mean だけで判断しない」ガード対象。主力観測 base はあくまで S6_v2、 S7-S10 は並列観察用。

なぜ MLE と (1,1) を並列で走らせるのか (= 較正 path の二刀流)

5 戦略の較正は「MLE Benter (= S6_v2 / S10_v2)」と「α=β=1.0 baseline (= S7_v2 / S8_v2 / S9_v2)」の 2 系統 に分かれています。これは backtest で観察された次の性質を拾いに行く設計です。

MLE Benter (= α=0.2825, β=0.8597) = モデルをやや弱める較正 → 「市場オッズ重視」 → 高 EV (= 1.5+) を通る race 数は少 (= n=132/年)、だが集中した picks で平均 ROI 高
α=β=1 baseline = モデルと市場を等価に扱う → 「モデル単独確率」が効く → EV ≥ 2.0+ で n=213/年と多サンプル + 高 ROI

これは 「モデルが odds に反映されていない edge を持っている」 ことの別角度からの観察で、較正を 1 つに固定するとどちらかを取り逃がす。 forward でどちらの較正が真値に近いかを 1 ヶ月で戦略別比較 するのが、並列並走のメリットです。

⚠️ ただし、これも 戦略探索後の観察 であり、「(1,1) が構造的に強い」と一般化するものではない。「今回の弊社モデルの較正不足を、 (1,1) baseline が偶然拾った」可能性を否定できない。 forward 観測の主目的の一つは、ここの切り分けでもあります。

撤退・切替ルール (= 1 ヶ月観測 = 6 月下旬判定)

forward 観測中に「mean だけ見て続行」や「単月 -30% で慌てて全撤退」を避けるため、事前に紙に書いてあります。

forward ROI (1 ヶ月)	判定	アクション
≥ 100% 維持	採用継続	投資額拡大検討 (= 6 月から、 Kelly 検討)
50 - 100%	採用継続	参考レンジ + 年別分布観察 + 結果編で追加評価
< 50% (= 2021 級暴れ年)	即全戦略撤退	安定代替単独 (= S6_v2 のみ) に切替、 S7-S10 停止

これ、投資系 ML を本番デプロイするときに「事前に撤退基準を紙に書く」というのは業務系と全く同じ。後で「想定外で撤退した」と言わない為の、自尊心救済装置でもあります。

「軽量 vs 中量 cache」の教訓

軽量 cache (130 列) で全戦略 78% 控除率一致 → 中量 cache (208 列、 + UM 血統系) で 100%+ 多数という結果は、競馬 ML において 特徴量設計が ROI に直結する ことの教科書的な例でした。 LightGBM の学習力自体ではなく、入力 feature の質と量が「edge を出せるか否か」を決定しています。

これは Bolton & Chapman (1986) の 「ハンディキャップ系特徴量設計が重要」 という結論と方向性が一致しており、競馬 ML では馬・騎手・調教師・血統・過去成績などの集計特徴量が効く、という古典的観察を弊社でも再確認した、というのが業界の「先人に学べ」教訓の典型例です。

詳細結果は弊社内部レポート (REPORTS/compare_6yr_vs_38yr_*.md) に全 76 ロバスト戦略を並べてありますが、個別戦略 / 個別 race / 個別馬に紐づく数値は本記事では公開しません。

第5章「自分が選ばなかった道」と「選ばなかった理由」 🛤

これ、競馬 ML を始める人が一番知りたい部分だと思うので包み隠さず書きます。「選ばなかった理由 を残すと、半年後に「あれ試して無いの?」と自問したときに「試して採用しなかった」と即答できる」という利点がある。

手法	選ばなかった or 採用見送り	理由
Neural Network 単独	採用見送り	LightGBM より弱い + 解釈性低い (= Benter 1994 と同じ結論)
TabNet Entity Embedding	採用見送り	sire_no 7,000 + クラスで過学習。 prior 集計版が強い
Bradley-Terry 学習	未実装	1 着確率推定で十分。馬連戦略を本気でやる時に再検討
Henery / Stern モデル	未実装	Plackett-Luce で充分強い + 計算が楽 (= IIA 仮定の妥当性は forward で観測)
三連単 N=1 単独	不採用	LE +56pt が真 odds 6 年 backtest で overfit 確定 (= spread 203pt、 2022 69%)
中間 5 馬券種 (複勝/馬連/ワイド/馬単/三連複)	現時点では採用しない	今回の特徴量・期間・ grid (= 882 戦略 / 6 年) で 100%+ 戦略が 1 件も出なかった。控除率 22.5-27.5% の壁が厚く、再検証まで保留
cross-bet ranking (= 馬券種横断 EV)	採用見送り	今回の backtest で 100%+ 戦略 0 件、単純単勝単独戦略の方が上
Kelly (Full)	採用見送り	真 p の過大推定で損失急拡大リスク。当面フラットベット、慣れたら Half-Kelly
CatBoost	試行中	LightGBM と比較中、差が出れば切替
DeepFM / DCN	検討留保	競馬で効く実装例が業界でまだ確立していない
追加課金データ / 外部有料指数	現時点では採用しない	TARGET / TFJV 由来の手元 DB を基盤とし、それ以外の JRDB ・有料予想指数・商用特徴量は使わない (= TFJV ローカル DB 自体は DataLab 会員範囲での個人利用)
外部タイム指数系	スタブ	会員プレミアム領域 / 利用規約上慎重を要し、手間に見合わないと判断

「選ばなかった道」を並べたことが、「選んだ道が弱かったときに戻れる道」でもある。 ML 開発の副産物としてこれはそこそこ価値があると思ってます。

第6章結局「競馬 ML」は何をやる仕事なのか 🧩

過去 1 ヶ月で自分が体感した「競馬 ML とはこういう仕事である」の整理を 1 枚に書き出します。これから始める人の期待値調整の参考に。

「モデル学習」そのものは 10%。 LightGBM を fit するだけなら 1 行。
「特徴量設計」が 40%。ここで血統 / Bayesian smoothing / 集計窓 / リーク監査に時間を溶かす。
「データ基盤」が 30%。 binary 仕様書がない、名前表記揺れがある、 race_id 形式が経路で違う、等の 泥作業。
「戦略設計」が 10%。 EV 閾値、 N 数、馬券種配分、撤退ルール。
「実戦 + 監視」は一生続く。 backtest と forward のギャップは必ずある。

ここ、業務系 ML を実デプロイして監視するときと 完全に同じ配分 です。自分が弊社でやっている JWW 図面 AI と比べても、工程配分はほぼ同じ。競馬が業務系 ML の練習台になる理由がここ。

第7章「日本語文献が薄い」問題とオープン化 📚

最後に、 1 ヶ月通じて強く感じたことを書きます。

競馬 ML、日本語文献が異常に薄い。

理由は想像つきます。

商用で成功した人 (= 大阪 / 札幌馬券裁判の当人や、機関投資家系) は 手の内を公開しない。それは競争優位の直接損失
個人でやっている人は note 有料記事や Discord で細々とやっていて、検索可能な場所に 論文 - 実装を紐付けた解説が殆ど無い
海外 (= 北米 / 香港 / 豪) は学術系が強くて、上記の 1973 Harville から連綿と JASA / Management Science / Royal Society に論文が残っているが、日本語で紹介する動機が誰にも無い

結果として、「日本競馬でやる競馬 ML」を始めた人は、日本語で検索しても「血統重視 AI で回収率 2,870 %」とか「単勝万馬券攻略法」とか 半分オカルト半分商売 の記事ばかりが出てきて、学術系を読みに行くと一気に海外論文の山に投げ込まれます。これ、入り口としてかなり急な階段です。

弊社がこのシリーズを出している動機の一つがここで、 「日本語で、学術系と実装を紐付ける入り口」が 1 個でもあれば後続が入ってくる、という期待です。競馬 ML に限らず、 マイナー領域の日本語文献の薄さ は業務系でもよく出会う課題で、弊社の建築 × AI シリーズ本編も「JWW 自動生成を日本語で紐解いた例が無い」から書き始めています。

📌 本記事末尾の「参考文献」に、弊社が 1 ヶ月で読んだ論文リストを全部並べました。リンクは全部一次ソース。これから始める人はここから入ると急階段がちょっとだけ緩くなるはず。

第8章 forward 観測開始予定と結果編予告 ⏰

⚠️ forward 観測の主目的は「検証ログの取得」 であって、自動購入・営利運用ではありません。 backtest と forward の差分を数値化し、 odds drift / 戦略選定バイアス / サンプル不足を後から検証するための 記録取り です。購入判断・投票連携手順・自動化の実装詳細は本記事では扱いません。

本記事は 投稿時点で一部検証 / 起動確認が進行中・予定 の状態を含む中間報告です。 backtest 系タスク (= Benter MLE 再学習 / 三連単 N=30 / S6_v2 年別 resampling レンジ / 1988-2025 長期 / S7-S10 設計) は完了済。候補抽出系 (= MLE と (1,1) の両較正 path、 5 戦略並列出力、検証上限額固定、 smoke test 拡張) は整備中。続いて 全コード bug hunt + 始動テスト 5 件 + GO / NO-GO 最終判定 を経て、 forward 観測を開始する設計です。 NO-GO 判定の場合は起動を止めて延期、という設計を事前に紙に書いてあり、結果編でその旨を報告します。

📝 状況注記 (= 投稿時点で進行中 / 予定の項目を含みます): モデル側 (= MLE 再学習、三連単 N=30 backtest、 S6_v2 年別 resampling レンジ、 1988-2025 長期 backtest、並列戦略設計) は backtest 完了済。続く検証段階として、候補抽出ロジック (= MLE / (1,1) の 両較正 path、 5 戦略候補出力、検証上限額の固定、 smoke test 拡張) を整え、その後「全コード bug hunt + 始動テスト + 観測開始の GO / NO-GO 判定」という流れで進めます。 NO-GO 判定が出た場合は観測開始を延期し、結果編でその旨と原因を報告します。

検証進捗 (= ✅ 完了 / 🛠 整備中 / ⏳ 予定)

STEP	内容	状態
✅	三連単 N=30 backtest 結果確認 (= N grid 完全版)	完了
✅	単勝 10 年 backtest + 6 年比較	完了
✅	全期間 MLE 値で戦略 re-validation	完了 → 旧 S6 deprecated、 S6_v2 主力候補
✅	S6_v2 年別 resampling 参考レンジ [130%, 249%]	完了
✅	1988-2025 (= 38 年) 長期 backtest	完了、 S6_v2 178% / 100%+率 79%
✅	並列戦略 S7-S10 設計	完了
🛠	MLE / (1,1) 両較正 path の候補抽出ロジック	整備中
🛠	5 戦略並列候補出力 + 検証上限額固定	整備中
🛠	smoke test Part 1 (retention) / Part 2 (S7-S10) / Part 3 (MLE π ≠ (1,1) π)	整備中
⏳	全コード bug hunt (= 3 環境)	予定
⏳	始動テスト 1-5 (= smoke / 抽象設定 / 過去 race dry-run / 定時経路 / 3 環境同期)	予定
⏳	GO / NO-GO 最終判定	予定
⏳	forward 観測開始 (= GO 判定時のみ)	5/23
⏳	5/23 + 5/24 forward 観測	5/23-24
⏳	5/25 22:00 結果編公開	5/25

5/25 月 22:00 の 「実戦結果編」 で出すもの:

5/23 (土) と 5/24 (日) の的中率・回収率の生数字 (= 隠さず)
モデル出力シグナルの全一覧 と結果 (= 紙で並べる)
Plackett-Luce 上位 N 通り の命中率分布
Benter blending の効果 (= α / β を動かして仮想 ROI を並べる)
購入時オッズ vs 確定オッズの散布図 (= odds drift 検証)
median ROI / trimmed mean ROI / 2025 除外 ROI / 最大連敗数 / 最大 DD / 1 日あたり損益分布 / EV bucket 別実績
backtest と forward のギャップを 1 つずつ見る
「2021 級の暴れ年が forward でどこで顔を出すか」の観察
(おまけ) 全 211,000 頭血統補完の進捗
(おまけ) 「税金を半日調べた件」の後日談 ← 万が一黒字が出てしまった場合のみ

📊 分散込み評価の予告: 三連単系の ROI は bets 数が少ないと一発の高配当で一気に動く ため、結果編では ROI 単体ではなく、 (a) bets 数・的中数・総購入額、 (b) 年別 ROI (= 2021 だけ突出してないか)、 (c) 最大ドローダウン、 (d) 年別 resampling 参考レンジ、 (e) calibration curve、 (f) Brier score / log loss、を併記します。「ROI だけ出してくる ML 系記事」にならないよう、ここはちゃんとやります。

⚠️ backtest 自体の統計的リスク 4 点 (= 後続で検証予定):

多重比較 + 戦略選定バイアス: 882 戦略の grid から「最高 ROI」を拾った → 同じ期間で「S6 が 200.3%」と言うと 戦略選定バイアス を含む。 Bonferroni / FDR 補正だけでなく、最終的には train (モデル学習) / calibration (α/β・isotonic) / validation (EV 閾値・N・馬券種選定) / final test (完全未使用期間) を時系列で分離した nested walk-forward で再評価する必要がある

サンプルサイズ不足: 単勝 EV ≥ 1.5 N=1 は 6 年で 1,116 race / 当たり 265 件 → σ ≈ 40-50 pt は不可避

2025 単年上振れ: avg 200% は 2025 単年 350% に引き上げられ、 2020-2024 中央値は 170% 付近

odds timing leak リスク: backtest は 確定オッズ (= 締切後確定値) で EV 判定しているが、実投票時点ではオッズは未確定。発走直前の odds drift で EV ≥ 1.5 が崩れる可能性がある (= 下記補足)

後続検証では、 新 MLE 値で戦略 ROI を再評価 + resampling 参考レンジ (= bet 単位だけでなく race-day / 開催日単位の block resampling も併用) + 2025 除外 5 年 avg + 2025 除外 trimmed mean / median ROI で数値化します。 forward 1 ヶ月では 100 - 170% に収束するシナリオを想定 しつつ、サンプル数次第では 100% 未満も十分あり得るもの として扱います。

⚠️ odds timing leak とは (= 一行で): 「backtest はゴール後に確定したオッズを知っているが、実投票時はまだオッズが動いている」というズレのこと。 backtest で「EV = 1.5 だから賭ける」と判定しても、実締切直前でオッズが動いて EV が 1.0 に落ちている、ということが起こり得ます。特に EV 閾値戦略 では odds drift が ROI に直撃します。 forward では購入時 / 締切直前 / 確定の 3 時点を記録し、結果編で (購入時 EV) vs (確定 EV) の散布図 を出す予定。

正直怖い。 backtest と forward が一致するとは思ってないので、ズレたときにどこが原因かを 1 つずつ潰すライブレポートになるはず。楽しみであり恐怖でもあります。

第9章おわりに (= 中間報告) 🌳

前回記事公開後の 1 ヶ月で、自分は「機械学習で競馬を予想する」という個人プロジェクトを 想像の 10 倍真面目にやる羽目になって います。そしてその過程で、

「自分が思いついた」と思ったアイデアは、大抵 1986 - 1994 年の論文に既出だった

という事実を 何度も思い知らされ、その度に「先人すごい」となっています。これ、自分の本業 (= 建築 × AI、 JWW 図面自動生成) でも全く同じことが起きていて、「自分が JWW で思いついた構造化手法、 1970 年代の AutoCAD 系論文に既出だった」が何度かあった。マイナー領域の個人開発は、「先人を見つける速度」がほぼ開発速度になる、と最近信じつつあります。

GO / NO-GO 判定を経て、弊社の競馬 AI は 検証用の最小額で、実運用に近い条件の forward 観測 を開始する設計です。 backtest 値が forward でどこまで持つか、持たないか。持たないときに どこがズレの原因か を、 Phase 1 - 10 の学びを 1 つずつ潰しながら検証します。 NO-GO で延期になった場合は結果編でその旨と原因を出す予定です (= 「forward の失敗を報告する」章が増えるだけ、という整理)。

これ、業務系 ML を本番デプロイする全ケースと同じで、「backtest と本番のギャップを 1 つずつ詰める」ことが結局一番学びが多い。競馬は結果が 3 - 30 分で出る ので、業務系で 1 ヶ月かかる学習ループが 1 日 で回る。やっぱり練習台としては異常に優秀。

5/25 月 22:00、また会いましょう。 (おそらく 意気消沈した顔で)

🔁 最後にもう一度:

本記事は ML 検証の読み物であり、馬券購入を推奨するものではありません。

数値は全部 hold-out / バックテスト等の検証結果。実購入がある場合も検証用の最小額です。

20 歳未満の方は、競馬法第 28 条により勝馬投票券を購入・譲り受けすることはできません。

投票連携・自動購入・外部サービス連携の実装手順は本記事では扱いません。利用する場合は、 JRA / IPAT 等の利用条件、通信失敗、締切直前の混雑、投票成立確認を含めて自己責任で管理する必要があります。

データ利用、馬券購入、税務処理、依存症リスクへの対応は、各自の責任で確認してください。馬券は余剰資金で適度に。

困ったら → 厚労省依存症対策

前回: 番外編「ROI 140% より先に税金が気になった話」
(本編「建築 × AI」シリーズ各記事は公開時にリンク追加)

主要参考文献 (= 弊社が 1 ヶ月で読んだもの、可能な限り一次ソース・出版社ページ・公式ドキュメントを優先)

確率モデルの古典

Harville (1973) "Assigning Probabilities to the Outcomes of Multi-Entry Competitions" Journal of the American Statistical Association — 競馬確率モデルの代表的な初期研究
Plackett (1975) "The Analysis of Permutations" Journal of the Royal Statistical Society Series C — Plackett-Luce 元論文
Luce (1959) Individual Choice Behavior: A Theoretical Analysis (Wiley) — IIA 仮定の元
Bradley & Terry (1952) "Rank Analysis of Incomplete Block Designs" Biometrika — pairwise 比較
Henery (1981) "Permutation Probabilities as Models for Horse Races" Journal of the Royal Statistical Society B — 正規分布仮定版
Stern (1990) "Models for Distributions on Permutations" Journal of the American Statistical Association — ガンマ分布仮定版

競馬 ML の古典

Bolton & Chapman (1986) "Searching for Positive Returns at the Track: A Multinomial Logit Model for Handicapping Horse Races" Management Science 32(8) — MNL の競馬応用代表研究
Benter (1994) "Computer Based Horse Race Handicapping and Wagering Systems: A Report" Efficiency of Racetrack Betting Markets (Hausch, Lo & Ziemba 編、 Academic Press / 1994; 2008 再録 World Scientific) — 競馬 ML の古典的代表作
Lo, Bacon-Shone & Busche (1995) "The Application of Ranking Probability Models to Racetrack Betting" Management Science 41(6) — 三連単拡張
Edelman (2007) "Adapting Support Vector Machine Methods for Horse Race Odds Prediction" Annals of Operations Research

インブリード・血統

Wright (1922) "Coefficients of Inbreeding and Relationship" American Naturalist — Wright COI 元論文
Todd et al. (2018) "Founder-specific inbreeding depression affects racing performance in Thoroughbred horses" Scientific Reports — 豪サラブレッド 135,572 頭 + 創始馬 257,249 頭の系譜で、近交と競走成績の関係を検証
McGivney et al. (2022) "Inbreeding depression and the probability of racing in the thoroughbred horse" Proceedings of the Royal Society B — 6,128 頭 × 297K SNP genotypes で F_ROH と出走可能性の関係 (= F_ROH +10% → ever racing -7%)

ベット配分

Kelly (1956) "A New Interpretation of Information Rate" Bell System Technical Journal
MacLean, Thorp & Ziemba (2010) The Kelly Capital Growth Investment Criterion (World Scientific)

較正

Platt (1999) "Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods" Advances in Large Margin Classifiers (MIT Press)
Zadrozny & Elkan (2002) "Transforming Classifier Scores into Accurate Multiclass Probability Estimates" KDD 2002 — Isotonic 較正

機械学習 (= 弊社が採用した道具)

Ke et al. (2017) "LightGBM: A Highly Efficient Gradient Boosting Decision Tree" NeurIPS
Akiba et al. (2019) "Optuna: A Next-generation Hyperparameter Optimization Framework" KDD 2019
Burges (2010) "From RankNet to LambdaRank to LambdaMART: An Overview" Microsoft Research Technical Report — ランキング学習
Arik & Pfister "TabNet: Attentive Interpretable Tabular Learning" (= arXiv 2019 / AAAI 2021)

使用ツール

Claude Opus 4.7 (1M context) — 論文整理、設計レビュー、実装補助に使用
- モデル概要・性能 / 1M トークン context: Anthropic 公式モデル一覧 (ja)
- Claude Code 上でのモデル設定 (1M context 含む): Model configuration (en)
LightGBM / Optuna — 学習・ハイパラ最適化
Python (paramiko / pandas / pyarrow / scikit-learn) — 全工程
scikit-learn IsotonicRegression — 確率較正
TabNet (pytorch-tabnet) — Entity Embedding (= 試行後採用見送り)
競馬の払戻金と所得税の一般整理: 国税庁タックスアンサー No.1490 / 最高裁判決 (平成27年3月10日 / 平成29年12月15日)
私の睡眠時間 — 1 ヶ月で平均 5 時間 (= 論文とコードを行き来した結果、返却不可)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

# 【番外編 第2話】 競馬 データ で 学んだ、 時系列 ML の **リーク 監査 と 確率 較正** 🏇📚

この 記事 で 分かる こと 📖

第0章 オチ を 先に 言います 🎯

第1章 前回 の あらすじ と 「素朴 な 疑問」 📝

第2章 競馬 ML の 「世界 史」 (= 1986 - 2024) 🌐

2.1 1973 Harville: 競馬 確率 モデル の 「原点」

2.2 1986 Bolton & Chapman: MNL の 競馬 応用

2.3 1994 Benter: 競馬 ML の 古典 的 代表 作

2.4 1995-2010 拡張: SVM / ベイズ / ニューラル

2.5 2010s 後半 - 現代: 勾配ブースティング + 深層学習

第3章 「競馬 に 合いそう な 確率 モデル」 を 1 つ ずつ 解剖 する 🔬

3.1 Plackett-Luce (= 弊社 三連単 で 採用)

3.2 Bradley-Terry (= 弊社 採用 して いない、 が 馬同士 比較 で 強力)

3.3 Bayesian Smoothing (= 弊社 血統 集計 で 全面 採用)

3.4 Wright COI (= 1922 年 の インブリード 係数、 弊社 9代 まで 拡張)

3.5 SII × BSII Nicks (= 種牡馬 × 母 父 相性、 弊社 採用)

3.6 Kelly Criterion (= 賭金 配分、 弊社 検討中)

3.7 LambdaRank (= 弊社 採用 候補、 未実装)

3.8 Isotonic Regression (= 弊社 採用、 較正)

第4章 弊社 開発 フェーズ 史 (= 1 ヶ月 の 旅 を 1 章 に 圧縮) 📜

Phase 0: 生 データ 抽出 (= 2026-04 中旬)

Phase 1: LightGBM ベース ライン (= 2026-04 下旬 - 05 中旬)

Phase 2: 集計 型 血統 (= 2026-05-17、 1 日 で 一気 に)

Phase 3: 5/19 大 リーク 検出 (= 半日 損失、 だが 結果 的 に 真値 確定)

Phase 4: LE 込み 254 特徴量 (= 2026-05-20)

Phase 5: Plackett-Luce 三連単 + overfit 確定 (= 2026-05-20)

Phase 6: Benter 較正 + 真 odds backtest + 戦略 確定 (= 2026-05-20 同日)

Phase 7: Benter MLE 全期間 再 学習 (= 2026-05-21 05:54)

Phase 8: 新 MLE re-validation で S6 (旧 主力) サンプル 崩壊 確定 (= 2026-05-21 06:14)

Phase 9 (= 確定 戦略 + 年別 resampling 参考 レンジ): S6_v2 主力 候補 化

Phase 10: 1988-2025 (= 約 38 年) 長期 backtest で 戦略 ロバスト 性 を 補強 (= 2026-05-21 07:12)

cache 拡張 の 工夫 (= 軽量 → 中量)

5/23 から の 並列 forward 候補 (= 5 戦略)

なぜ MLE と (1,1) を 並列 で 走らせる の か (= 較正 path の 二刀流)

撤退 ・ 切替 ルール (= 1 ヶ月 観測 = 6 月 下旬 判定)

「軽量 vs 中量 cache」 の 教訓

第5章 「自分 が 選ば なかった 道」 と 「選ば な かった 理由」 🛤

第6章 結局 「競馬 ML」 は 何 を やる 仕事 な の か 🧩

第7章 「日本語 文献 が 薄い」 問題 と オープン 化 📚

第8章 forward 観測 開始 予定 と 結果 編 予告 ⏰

検証 進捗 (= ✅ 完了 / 🛠 整備 中 / ⏳ 予定)

第9章 おわりに (= 中間 報告) 🌳

関連 記事

主要 参考 文献 (= 弊社 が 1 ヶ月 で 読んだ もの、 可能 な 限り 一次 ソース ・ 出版社 ページ ・ 公式 ドキュメント を 優先)

確率 モデル の 古典

競馬 ML の 古典

インブリード ・ 血統

ベット 配分

較正

機械学習 (= 弊社 が 採用 した 道具)

使用 ツール