はじめに
昨年同様、今年もnetkeibaさんが実施しているAI競馬予想マスターズという予想アルゴリズムの大会に参加させていただいております。現在、最初60名程度いた予選から上位10名まで残っているものの、劣勢状況なので頑張りたいと思っています。今回は、この1年間で得た競馬予想領域でのデータ活用についての知見を、弊社の今後の事業領域にも関連させながらお話しできればと思います。
データ活用の領域において、競馬は解析対象としてよく取り上げられ、データ分析を用いた予想が盛んに行われています。しかし、従来型のデータセット(金融業界で言う財務状況などのデータや株価チャートなどのトラディショナルデータ)のみを用いた予想では、回収率向上に限界があることも事実です。そこで本稿では、オルタナティブデータと呼ばれる非伝統的なデータを用いることで、競馬予想の回収率向上を目指す取り組みについて解説します。
競馬予想におけるデータ活用
従来型データの限界
多くの競馬予想AIは、過去のレース結果、血統、騎手などの情報を含む、いわゆる馬柱と言われる従来型データセットを学習し、予測を行っています。しかし、これらのAIは想定勝率(1着になる確率)を計算し、買い目を予測することが多く、これが必ずしも回収率向上に直結するわけではありません。なぜなら、控除率を差し引いた最終的な回収率は75%~80%になる可能性が高いからです。1着になる確率が高くても、オッズが低ければ利益は少なく、場合によっては損失が出る可能性もあります。
オルタナティブデータの活用
従来型データの限界を打破するために、金融領域で近年注目されているのがオルタナティブデータの活用です。オルタナティブデータとは、従来のビジネスデータとは異なる、非伝統的なデータソースから取得されたデータのことです。 企業業績や財務諸表といった従来型のデータ分析だけでは、顧客の真のニーズや行動を捉えきれないケースも増えており、オルタナティブデータが注目されています。 例として、以下のようなものが挙げられます。
- Webサイトの閲覧履歴
- SNSの投稿内容
- 位置情報データ
これらのデータは、従来のデータでは得られない、より深く、よりリアルタイムな消費者行動や市場トレンドに関するインサイトを提供します。競馬予想でも、パドックの画像解析、ラップタイムの情報、レースから得られる情報を中心に情報を集めている人や、私のように競馬新聞の印、回収率の高い予想家の情報など、従来型データには含まれないデータを集めている人が増えています。これらのデータを分析することで、後述するような各種バイアス(認知バイアスや本命・穴馬バイアス)、情報格差の影響を受けにくい、より精度の高い予想が可能になります。
学術的に回収率を上げるために必要な要素
この一年間、生成AIの力を借りながら、競馬を含むスポーツベッティングに関する論文を調査した結果、学術的には以下の要素をデータを使って考慮することで回収率が上がると言われているようです。
-
本命・穴馬バイアス(Favorite-Longshot Bias):
- 本命馬(人気馬)は過小評価され、穴馬(人気薄の馬)は過大評価される傾向があります。これは、本命馬の期待払戻率が低く、穴馬の期待払戻率が高いという形で現れます。
- 具体的には、低オッズの馬券は過剰に購入され、高オッズの馬券は過少に購入される傾向にあり、結果として、人気薄の馬券の回収率が低くなります。
- このバイアスは、リスク選好度の違いや、確率に対する誤認識によって説明されることがあります。
- また、異質な信念を持つトレーダーの存在によっても説明されることがあります。例えば、大半は正確な信念を持つトレーダー(canonical traders)である一方で、一部は信念の分散が大きいノイズトレーダーであるという二種類のトレーダーが存在するというモデルで説明できます。
-
オッズの歪み:
- 馬券の売上額や出走頭数が少ないレースでは、異なる種類の馬券間で価格の歪みが大きくなることがあります。
- これにより、「必ず利益が出るような馬券の組」を構成できる機会がある場合があります。
- 例えば、あるレースで、特定の馬が優勝した場合に必ず10万円以上の払戻があるような馬券の組み合わせを、より低い金額で購入できるといった状況です。
-
情報の非対称性:
- 競馬市場では、インサイダー情報を持つ者が存在する可能性があり、この情報の非対称性がオッズに影響を与え、結果として回収率に影響を与える可能性があります。
- その他のバイアス:
これらのバイアスを理解し、それらを考慮に入れた馬券戦略を立てることで、回収率を向上させることができる可能性があるといわれています。
具体的にやってみたこと
これらの情報を考慮して、今年取り組んでみたことをご紹介します。
1. オッズ推移を元にしたノイズトレーダーの除去について:
レース直前のオッズは、多くの情報が反映された結果であり、予想に役立つ情報を含んでいます。大きなレースがある日には、普段は馬券を買わない人(ノイズトレーダー)が競馬新聞やテレビ、最近ではネット上の予想情報などを元に馬券を購入します。前述の通り、競馬の回収率を上げるためには1着になる馬を見つけるのではなく、相対的に過小評価されている馬の馬券を購入することが重要です。そのため、定期的に馬券を買っているある程度の回収率が高い予想を出している人と最終オッズの差が大きい馬は、相対的に回収率が高くなる傾向が強いと言えます。
2. 販売開始直後のオッズとオッズ形成に関わる情報との差分の分析:
競馬新聞の馬柱や印は、従来型のデータを活用した予想において一般的に取得可能なデータの代表的なものです。一方で、従来型のデータから形成した想定オッズと販売開始後のオッズに大きな乖離がある馬が存在します。競馬新聞や予想サイトに反映されづらいレース直前のパドックや体重変化などの情報がない状況での乖離は、従来型のデータには含まれていない情報の非対称性を持った意思決定によって行われている可能性が高く(インサイダーという言い方で学術的には表現されていましたが、インサイダーというよりは従来型のデータに反映されていない情報)、それを考慮したオッズとなっている可能性が高いため、この差分が大きい馬を購入することで相対的に回収率が高くなる傾向が高くなります。
(以下の内容は単純な回収率がそれぞれの区分でどうなっているかを取っているものなので極端に件数の少ないセルなどもあります)
先週の実際の回収率
最近はアプリケーション作るのも簡単になっているので実際に利用をする際はアプリケーションを作成して使っています。
個人用の分析ダッシュボード
まとめ
競馬予想において回収率を向上させるためには、従来型のデータだけでなく、オルタナティブデータを活用することが重要です。特に、本命・穴馬バイアスやオッズの歪み、情報の非対称性を考慮することで、より精度の高い予想が可能になります。具体的には、オッズ推移を分析してノイズトレーダーの影響を除去したり、販売開始直後のオッズと従来型データに基づく想定オッズとの差分を分析したりすることで、過小評価されている馬を特定し、回収率向上に繋げられる可能性があります。今後も取り扱うデータの種類や解析技術の発展と共に、競馬予想は更に進化していくことでしょう。
※せっかくなので12/22の午前9時くらいに22日のデータをいかに更新しようと思っています。
[[以下、更新予定]]
参考文献
- Snowberg, E., & Wolfers, J. (2008). Examining explanations of a market anomaly Preferences or perceptions. In Handbook of sports and lottery markets (pp. 103-136). Elsevier.
- 芦谷, 政浩. (2010). 「穴馬への過剰な選好 (longshot bias)」 に関するサーベイ. 国民経済雑誌, 202(2), 13-28.
- Chiappori, P. A., Gandhi, A., Salanié, B., & Salanié, F. (2009). Identifying preferences under risk from discrete choices. American Economic Review, 99(2), 356-362.
- Chiappori, P. A., Salanié, B., Salanié, F., & Gandhi, A. (2019). From aggregate betting data to individual risk preferences. Econometrica, 87(1), 1-36.
- Whelan, K. (2024). Risk aversion and favourite–longshot bias in a competitive fixed‐odds betting market. Economica, 91(361), 188–209.
- Gandhi, A. (2007). Rational expectations at the racetrack testing expected utility using prediction market prices. University of Wisconsin-Madison, mimeo.
- Gandhi, A., & Serrano-Padial, R. (2015). Does belief heterogeneity explain asset prices The case of the longshot bias. The Review of Economic Studies, 82(1), 156-186.
- Jullien, B., & Salanié, B. (2000). Estimating preferences under risk The case of racetrack bettors. Journal of Political Economy, 108(3), 503-530.
- Ottaviani, M., & Sørensen, P. N. (2009). Surprised by the parimutuel odds. American Economic Review, 99(5), 2129-2134.
- Ottaviani, M., & Sørensen, P. N. (2010). Noise, information, and the favorite-longshot bias in parimutuel predictions. American Economic Journal Microeconomics, 2(1), 58-85.
- Snowberg, E., & Wolfers, J. (2010). Explaining the favorite–long shot bias Is it risk-love or misperceptions. Journal of Political Economy, 118(4), 723-746.
- (2009). [ handbook of sports and lottery markets] (536s).