石川能登地震で被害に遭われた方のご無事を心よりお祈り申し上げます。
そのうえで、明日開催予定となった箱根駅伝を楽しみにしている方も数多くいるかと思いますので、そのような方々のお楽しみのひとつになればと思い、記事を公開させていただきます。
箱根駅伝データ分析物語と題して、箱根駅伝に関する分析をまずは基礎集計から実施してみているこのコーナー。
コーナー自体は2024年の箱根駅伝、つまり再来年の箱根駅伝の予測を機械学習ベースで行うことを目標にしていますが、
せっかくなので2023年の箱根駅伝も予測してみます!!!
ただし、データ収集および整形が不十分のため、機械学習での予測は間に合わなそう(データが少しでもあればできるっちゃできるけど精度が超低いことは明白)なので、
一旦今持っているデータをもとに、線形回帰による線形予測×補正ロジックでの予測を行おうと思います。来年度はもっと精度が高まるはず…!
1. 予測結果
はじめに、12/29公表時点区間配置の予測結果を載せます!
(ただし当日変更発表前のため、区間配置は12/29に公表された区間エントリーベース。当日エントリー変更後、出走開始前に最終予想。)
予測まとめ
念のためですが、この予測結果はあくまで定量的な分析による予測以外のなにものでもなく、主観は介在しません。
この分析結果をもとに特定の方を誹謗中傷することは決してないよう、あくまで楽しみの一つとしてご参考ください。
(僕に対するコメント、改善要望などはドシドシお寄せください。)
当日エントリー変更がない場合、以下予測成績となった。
大学成績TOP5
総合成績
1位:青山学院 10:48:43
2位:駒澤 10:51:37(+02:56)
3位:創価 10:53:29(+04:46)
4位:國學院 10:53:36(+04:53)
5位:東海 10:53:57(+05:06)
往路成績
1位:創価 05:24:32
2位:青山学院 05:24:44(+00:12)
3位:駒澤 05:25:40(+01:08)
4位:中央 05:25:43(+01:11)
5位:國學院 05:25:58(+01:26)
復路成績
1位:青山学院 05:23:58
2位:駒澤 05:25:57(+01:59)
3位:東海 05:26:41(+02:43)
4位:國學院 05:27:39(+03:41)
5位:法政 05:27:48(+03:50)
個人成績(区間賞)
1区:溜池一太② (中央) 1:01:20
2区:鈴木芽吹④ (駒澤) 1:06:08
3区:佐藤圭汰② (駒澤) 1:01:06
4区:佐藤一世④ (青学) 1:00:26
5区:吉田響③ (創価) 1:09:44
6区:松尾昴来④ (東海) 0:57:44
7区:石原翔太郎④(東海) 1:01:56
8区:阿部陽樹③ (中央) 1:04:30
9区:倉本玄太④ (青学) 1:07:58
10区:宇田川瞬矢④(青学) 1:09:28
予測詳細
PCの都合上直接画像ペーストできず画質が荒い……
各区間タイム・順位
各区間タイム順位
各区間通過順位
2. 予測ロジック
以下、興味がある方向け
分析期間が短いため、10,000mタイムと区間タイムの単回帰分析をベースに、補正ロジックを付与することでの予測を試みる。
「10,000mトラックタイムだけでは駅伝でのロード力は測れない」 という通説があるため、どの程度測れるのかを確認しつつ、
別の要素(説明変数)で測れない部分を補填する
今回は10,000mトラックタイムだけでは測りきれない要素を加味した補正ロジックを踏まえ、以下式での予測を実施
①10,000mトラックタイムによる予想区間タイム
×
②各区間における箱根駅伝監督采配力(箱根初出走/経験者)
×
③潜在的個人ロード力(過去出雲/全日本/箱根踏まえ)
①・③は個人単位、②は各区間における各大学の初出走/経験者単位での数値を算出
3. 分析ステップ
以下の手順での分析を実施。
- 過去データより、出走時10,000mタイムと区間タイムの単回帰分析を実施
- 単回帰分析だけでは精度は低いことが予想されるため、過去データを教師データとして、単回帰予測と実際の区間タイムの乖離を計測
- 乖離値を各区間ごとに大学別、さらには箱根初出走/経験者別に集約し、『監督采配力』 とする
- 『監督采配力』まで加味した区間予想タイムと実際の区間タイムを比較し、乖離度を 『潜在的個人ロード力』 とする。その際、出雲駅伝・全日本大学駅伝の個人結果もそれぞれ加味して算出する
- 最後に、「逆タイム番長補正」を実施し、一部ランナーに対して10,000mベストタイムを補正する
- 第100回箱根駅伝出走予定者の10,000mベストタイムをもとに、『①10,000mトラックタイムによる予想区間タイム』『②各区間における箱根駅伝監督采配力(箱根初出走/経験者)』『③潜在的個人ロード力』 を掛け合わせることで、
選手ごとの 『予想区間タイム』 を算出する
過去データをもとに、単回帰分析による推測値と実測値の乖離を変数化(『監督采配力』『個人ロード力』)することで、精度を向上させるねらい
分析①:10,000mトラックタイムによる予想区間タイムの算出
以下記事を参照
箱根駅伝データ分析物語 #4:回帰分析(10,000mトラックタイム(x軸)×区間タイム(y軸))
分析②:『監督采配力』の加味
以下記事を参照
箱根駅伝データ分析物語 #5-1:ロード力分析(監督采配力)
分析③:『潜在的個人ロード力』の加味
箱根駅伝データ分析物語 #5-2:ロード力分析(潜在的個人ロード力)
分析④:『逆タイム番長トラックタイム補正』の補正
箱根駅伝データ分析物語 #6:逆タイム番長トラックタイム補正
4. おわりに
結果やいかに。
また当日エントリー変更が判明次第、踏まえた分析結果をアップ予定です。