設計
各馬の走破タイムを確率的にモデル化する。
出走馬がN頭いて、それぞれの馬を$i=1,\cdots,N$と表現する。
各馬の走破タイム$\tau_i$が確率分布$s_i(\tau_i)$に従うとする。
ある馬が優勝する確率
馬$i$が優勝する確率$W_i$、は
$$
\begin{align}
W_i = \int_{\tau_i<\tau_{j\neq i}}dp(\tau_1,\cdots,\tau_N)
\end{align}
$$
で計算される。
各馬の走破タイムが独立な確率分布に従うと仮定すると、
\begin{align}
W_i &= \int_0^{\infty}\left\{ s_i(\tau_i)\int_{\tau_i}^{\infty} s_1(\tau_1)d\tau_1\cdots\int_{\tau_i}^{\infty} s_{i-1}(\tau_{i-1})d{\tau_{i-1}}\int_{\tau_i}^{\infty} s_{i+1}(\tau_{i+1})d{\tau_{i+1}}\cdots\int_{\tau_i}^{\infty} s_{N}(\tau_{N})d{\tau_{N}} \right\}d{\tau_{i}} \\
&= \int_0^{\infty}\left\{ s_i(\tau_i) \left( 1-\int_0^{\tau_i} s_1(\tau_1)d\tau_1 \right)\cdots \left( 1-\int_0^{\tau_i} s_{i-1}(\tau_{i-1})d{\tau_{i-1}} \right) \left( 1-\int_0^{\tau_i} s_{i+1}(\tau_{i+1})d{\tau_{i+1}} \right)\\
\cdots\left( 1-\int_0^{\tau_i} s_{N}(\tau_{N})d{\tau_{N}} \right) \right\}d{\tau_{i}}
\end{align}
ある2頭が優勝、準優勝する確率
今度は馬単について考える、馬$i$が優勝、馬$j$が準優勝する確率$W_{i,j}$は、
$
W_{i,j} = \int_{{\tau_i}<\tau_{j}<\tau_{k\neq i,j}}dp(\tau_1\cdots\tau_N)
$
先ほどと同様に走破タイムの独立性の仮定を用いれば、
\begin{align}
W_{i,j} &= \int_{0}^{\infty}\left\{ s_i(\tau_i) \int_{\tau_i}^{\infty} \left\{
s_j(\tau_j) \int_{\tau_j}^{\infty}s_1(\tau_1)d\tau_1\cdots\int_{\tau_j}^{\infty}s_N(\tau_N)
d\tau_N\right\}d\tau_j\right\}d\tau_i \\
&= \int_{0}^{\infty}\left\{ s_i(\tau_i) \int_{\tau_i}^{\infty} \left\{
s_j(\tau_j) \left( 1-\int_{0}^{\tau_j}s_1(\tau_1)d\tau_1\right)\cdots\left(1-\int_{0}^{\tau_j}s_N(\tau_N)
d\tau_N\right)\right\}d\tau_j\right\}d\tau_i \\
\end{align}
実際のカリブレーション
-
$s_i$ は各々$\Gamma$ 分布に従うと仮定する
-
上記の計算はこれ以上は解析的にすすめられない(多分)あきらめて数値計算する
-
$\Gamma$分布にはパラメタが2つあり、全体で2N個のパラメタが存在する
-
単勝オッズだけだとN個しか方程式がないので単純にはカリブレーションできない
-
この場合はΓ分布の片方を固定するなどの必要がある
-
馬単からカリブレートする場合には$N(N-1)$の方程式が存在するので最小2乗法などを使用する必要がある
-
Γ分布の平均がαβで分散がαβ^2、モードが(α-1)β。
-
走破タイムは規格化されたもんで十分なので、初期値値をα=100、β=0.01として、平均1、で1標準偏差に10%くらい入るようにした。
次回以降
- 馬単ですら2重の数値積分が入っていてそれなりに時間がかかるので、3連単まで考えるとレース前に直前オッズを取得して計算をまわしたり、数十年のバックテストを数値正規分を使って行うのは厳しいと考える
- 効率的な計算手法か近似法について考える必要がある
- 近似については参考文献をみつけたので次回以降解説を進める