概要
全出走馬の勝率,連対率,複勝率がわかっているとき、馬Aが1着、馬Bが2着、馬Cが3着になる確率を推定する方法を考える。
前提条件
- AIなどの予測値としてある馬$i$の勝率$p1[i]$、連対率$p2[i]$、複勝率$p3[i]$が得られている。
- 出走頭数を$N$とするとき、以下が成り立っている。
- $\sum_{i=1}^{N} p1[i] = 1$
- $\sum_{i=1}^{N} p2[i] = 2$
- $\sum_{i=1}^{N} p3[i] = 3$
- すべての$i = 1,2,...,N$に対して、$p1[i] < p2[i] < p3[i]$が成り立つ。
- ある馬$i$の馬が1着になる確率$q1[i]$、2着になる確率$q2[i]$、3着になる確率$q3[i]$は以下の通り求まる。
- $q1[i] = p1[i]$
- $q2[i] = p2[i] - p1[i]$
- $q3[i] = p3[i] - p2[i]$
-
以上の確率は独立ではなく、「周辺確率」であって「同時確率」ではないことに注意する。
- ある馬Aが1着になった場合他の馬は1着にはなれない
- すなわち、全出走馬の勝率,連対率,複勝率がわかっていても馬Aが1着,馬Bが2着,馬Cが3着になる確率を厳密に求めることはできない。 何かしらの仮定を置くか、近似を行い妥当な値を推定する必要がある。
- 参考:同時分布と周辺分布
推定方法
馬$i$→馬$j$→馬$k$の順に1着、2着、3着になる確率を$P[i,j,k]$とする。
周辺確率しか得られていないため厳密解を求めることはできないが、推定する方法を考える。
独立近似を許す場合
独立近似を許す場合、$P[i,j,k]$は単純な確率の積として以下のように求まる。
P[i,j,k] = q1[i] * q2[j] * q3[k] \tag{1}
Plackett–Luceモデル
Plackett–Luceモデルでは、馬$i$には非負の能力値$w_i>0$があると仮定し、順位が早いものから逐次的に選択し取り除くことを考える。このとき、馬$i$が1着になる確率は
q1_{PL}[i] = \frac{w_i}{W} = q1[i] \tag{2}
である。ただし、
W = \sum_{j=1}^{N} w_j\tag{3}
である。続いて、馬$i$が1着になったとき、馬$j$が2着になる確率は
q2_{PL}[i,j] = \frac{w_j}{W - w_i} = \frac{q1[j]}{1 - q1[i]} \tag{4}
である。さらに、馬$i$が1着、馬$j$が2着になったとき、馬$k$が3着になる確率は
q3_{PL}[i,j,k] = \frac{w_k}{W - w_i - w_j} = \frac{q1[k]}{1 - q1[i] - q1[j]} \tag{5}
である。よって、Plackett–Luceモデルを使用する場合、$P[i,j,k]$は以下のように求まる。
P[i,j,k] = q1_{PL}[i] * q2_{PL}[i,j] * q3_{PL}[i,j,k] = q1[i] * \frac{q1[j]}{1 - q1[i]} * \frac{q1[k]}{1 - q1[i] - q1[j]} \tag{6}
連対率、複勝率を考慮したPlackett–Luceモデル
Plackett–Luceモデルでは勝率しか考慮していないが、AI予測データには連対率、複勝率も含まれており、中には勝率は極めて低いが複勝率はそこそこある馬も存在する。そこで、連対率、複勝率を考慮したPlackett–Luceモデルをこれから考えていく予定。乞うご期待。