LoginSignup
1
1

箱根駅伝データ分析物語 #5-2:ロード力分析(潜在的個人ロード力)

Posted at

前記事に記したとおり、今回の分析において
トラックタイムでは測ることのできない『ロード力』を以下の2つに分解した。

1. 大学別監督采配力:大学×区間×出走経験有無別の数字
年間の練習・試合を通しての監督による区間適性の見極め力
 
2. 潜在的個人ロード力:個人別の数字
過去ランナーの傾向や監督にも測れない潜在的な本番合わせ力やたまにある見えざる手による覚醒力

本記事では、『潜在的個人ロード力』 についての分析を行う。
このロード力とは、純粋なロードの強さではなく、あくまで「対トラック持ちタイムのロード力」 であることに留意する。
(よって、逆タイム番長は必然ロード力が非常に高くなる)

<前記事>
箱根駅伝データ分析物語 #5-1:ロード力分析(監督采配力)

1. はじめに

前記事の「はじめに」と同じ。

2. 分析目的

IMG_5184.png

繰り返しになるが、最終的な個人別予測値の予測ステップは上図を想定している。

各区間の10,000mトラックタイムによる単回帰予測値をベースに、『大学別監督采配力』『潜在的個人ロード力』 を順に加味することで、各区間における個人別予測値を算出する。

本分析においては、『潜在的個人ロード力』を算出する。

4. 算出ロジック

4-1. 算出ステップ

『潜在的個人ロード力』は、以下図のようなロジックで算出を想定する。

  1. 直近5回大会分のデータを対象に、「単回帰予測値」に「監督采配力」を掛けて算出した「采配ベース予測値」と実際の区間タイムから推計の乖離度合いを集計する(①~③の比率を算出する)
     

  2. 過去大会の乖離度合いを平均した数値を、未来予測に活用する『潜在的個人ロード力』として算出する(①~③の平均値を算出)
     

  3. 上記ステップを各個人ごとに算出し、『潜在的個人ロード力』として設定する
     

  4. 設定した『潜在的個人ロード力』に対して、算出済みの「采配ベース予測値」を掛け合わせ、各大学の対象区間における「第100回予測値」を算出する

4-2. 算出における制約条件

また今回、『潜在的個人ロード力』の数値設定に対しては、以下のような制約を設けた。この制約を改善することで、精度の向上も期待できると考える。

制約①:出雲駅伝・全日本駅伝の『潜在的個人ロード力』も加味する

平均値の中に、出雲・全日本の出走によるロード力も踏まえる。
ただし、箱根出走をしたことがなく、出雲・全日本のみ出走したことがあるランナーについては、距離の違いによる上振れ・下振れを防ぐため、算出平均値と100%の平均を最終的なロード力とした。(これは恣意的すぎる気もしたが、一旦このようにおく。)

その際、出雲・全日本においては、監督采配力は加味しないこととする。

制約②:初出走ランナーの「潜在的個人ロード力」は一律100%とする

「潜在的個人ロード力」は、過去駅伝実績をもとに算出するため、三大駅伝出走歴のないランナーについては、データがない。

その場合、「監督采配力」では100%よりも下振れさせるような処理を行ったが、ランナーについては100%一律で設定する。

制約③:特殊区間の5区・6区については、平地区間とは別ロジックを私用する。

5区・6区は適性重視の特殊区間のため、平地のロード力が完全には反映されない可能性が高いと予想。
そのため、出雲・全日本・箱根平地区間の『潜在的個人ロード力』を集計し、そのサンプル数をN=1としたうえで、過去箱根の5区・6区の『潜在的個人ロード力』との出走回数に対する加重平均を算出した。

過去箱根で5区・6区を出走したことのないランナーについては、過去箱根の5区・6区の『潜在的個人ロード力』を100%およびN=1として算出した。

『監督采配力』に加えて今回も上記の制約条件は感覚的な要素がかなり交じってしまっているため、改善の余地は大きい…。

5. 分析方法

環境

例のごとく本当ならばコーディングでバシッとやりたいところだったが、
PCの都合上Excelで実施。ボタンを押すだけで出来た。

元データ

誠に勝手ながらこちらを参照させていただきました!すみません!ありがとうございます!
まったり駅伝
箱根駅伝・過去のデータ集

データ整形処理

元データを抽出後、以下処理を実施

  • 第95回大会以降のレコードを対象とする
  • 出走時に10,000mトラックの記録を持たないランナーのレコードは除外
  • 学連選抜等OP参加のランナーのレコードは除外
  • 全データでの近似直線からの乖離度が上下2.5%データは外れ値として除外

6. 分析結果

分析結果が最も重要だと思うのだが、『潜在的個人ロード力』は個人別に設定されるため、ここですべて載せるのは割愛。(すみません)

平地ロード力TOP10のみ記載する。

平地ロード力

順位 大学 名前 学年 最新1万m 平地ロード力
1 創価 吉田響 3 28:59.5 105.5%
2 駒澤 山川拓馬 2 30:27.2 103.8%
3 早稲田 伊藤大志 3 29:42.2 102.9%
4 明治 森下翔太 2 28:24.8 102.1%
5 明治 杉彩文海 4 28:28.9 102.0%
6 早稲田 工藤慎作 1 28:31.9 101.9%
7 帝京 山中博生 3 28:35.7 101.6%
8 國學院 佐藤快成 3 30:35.3 101.5%
9 中央 湯浅仁 4 28:12.2 101.4%
10 大東文化 佐竹勇樹 4 28:34.3 101.4%

繰り返しだが、このロード力とは、純粋なロードの強さではなく、あくまで「対トラック持ちタイムのロード力」であることに留意する。
(よって、逆タイム番長はロード力が非常に高くなる)

過去三大駅伝出走時はトラックタイムが遅かったが、最新の持ちタイムは速いようなランナーは、トラックタイムも良いしロード力も高いという事象が起こり得てしまう。(限界に記載)

7. 限界

多々あると思うが、パッと思いついたのは以下2つ。

限界①:区間差異の非考慮

この分析における大きな問題は、区間の違いによる差分を考慮できていないこと。箱根2区で105%の結果を残すことと、全日本4区で105%の結果を残すことの難易度は異なるが、現状同等として平均値をとっており、差異を考慮できていない。
⇒来年度に向けては、区間ごとの実力差異を考慮できるようなモデルとしたい

限界②:トラックタイム更新の非考慮

本来であれば、トラックタイムの記録が伸びたらロード力は若干下がるべきだが、今回はその補正を行っていない。
これも限界①同様、10000m30分で105%の力を出したあとに10000m28分のトラックベストを出すと、予測時には28分のトラックタイムで105%の実力を出すような推計ロジックとなってしまう。これも非現実的な推計値を出す要因になりかねない。
⇒来年度に向けて、トラックタイムの伸びに応じてロード力を小さくするようなロジックを付与する必要がある

8. 次分析

次分析は予測を…と思ったのだが、「逆タイム番長補正」処理を予測時に活用することを想定しているので、その処理について記載する

お願い

皆さまからのデータ提供&いいねなど、いつでもお待ちしています。。。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1