第100回大会の臨時予測に向けて、10,000mトラックベスト以外の特徴量について分析を試みる。
前記事でも触れたが、考えているのは、『大学別監督采配力』『潜在的個人ロード力』 の2つ。
本記事ではまず、『大学別監督采配力』 についての分析を行う。
<前記事>
箱根駅伝データ分析物語 #4:回帰分析(10,000mトラックタイム(x軸)×区間タイム(y軸))
1. はじめに
これまでの分析結果から、箱根駅伝の各区区間タイムを10,000mトラックベストだけで予測するという夢は断たれたわけだが、
その要因としては、そもそもの距離の違いに加えて、『トラック』と『ロード』の差分によるものだと考えられる。
駅伝ファンであれば、『ロード力』という言葉は馴染み深いと思うが、トラックタイムはそこそこのランナーが、突然区間新記録で爆走することはちょこちょこ起こり得ている。
そのため、区間タイムを予測するうえでは、この『ロード力』を加味することが必須となる。
機械学習による予測であれば、その『ロード力』を様々な説明変数から特徴量として自動抽出してくれるのだが、
今は四の五の言ってられないので頑張って無理くり定義づけをし、自分で定量化する。
2. 分析事項の整理
前章ではひとえに『ロード力』と言ったが、分析にあたり、『ロード力』をさらに以下の2つに分解する
1. 大学別監督采配力:大学×区間×出走経験有無別の数字
年間の練習・試合を通しての監督による区間適性の見極め力
2. 潜在的個人ロード力:個人別の数字
過去ランナーの傾向や監督にも測れない潜在的な本番合わせ力やたまにある見えざる手による覚醒力
分解する意図としては、例えば特に箱根駅伝など主要大会に出ていない選手の場合、補正ロジックの数値が全く存在しない。
しかし、実際に年間を通じてこれまで主要大会に出ていなくても、箱根駅伝に出るということは監督に何かしらの適性を見出されたということのため、その数値を『大学別監督采配力』という形で加味することで、学習結果を予測に反映しようとする。
あとは、変数を分散させることで誤差が小さくなるのではという期待もある。
3. 分析目的
最終的な個人別予測値の予測ステップは上図を想定している。
各区間の10,000mトラックタイムによる単回帰予測値をベースに、『大学別監督采配力』『潜在的個人ロード力』 を順に加味することで、各区間における個人別予測値を算出する。
本分析においては、その一つ『大学別監督采配力』を算出する。
4. 算出ロジック
4-1. 算出ステップ
『大学別監督采配力』は、以下図のようなロジックでの算出を想定している。
-
直近5回大会分のデータを対象に、10,000mトラックタイムによる「単回帰予測値」と実際の区間タイムから推計の乖離度合いを集計する(①~④の比率を算出する)
-
過去大会の乖離度合いを平均した数値を、未来予測に活用する『監督采配力』として算出する(①~④の平均値を算出)
-
上記ステップを各大学・各区間、また箱根駅伝を初出走/経験者別に算出し、『監督采配力』として設定する
-
設定した『監督采配力』に対して、出走ランナーの10,000mトラックタイムより算出した「単回帰予測値」を掛け合わせ、各大学の対象区間における「采配ベース予測値」を算出する
今回、各大学・各区間別に加えて、初出走/経験者別に数値を設定することにした。
これは、箱根駅伝初出走の選手を起用する場合と、出走経験のある選手を起用する場合の采配力は異なると考えたことによる。
数式としては、以下のような算出式となる。
\begin{align}
監督采配力(Z_j)&=1/{(実績/単回帰予測)の平均}\\
&=5/\sum_{k=95}^{99} (x_{jk}/x'_{jk})\\
\end{align}
$j:区間,x_k:k回大会の実績,x'_k:k回大会の単回帰予測$
数式で書いてみたけど年末にして時間のむだof the year受賞。
箱根駅伝において、区間タイムの大きさは小さい方が成績がいいため、最後逆数を取る形としている。
また監督采配力は、●●%という形式で表記する。
数値が高い方が、采配力が高いことを示す。
4-2. 算出における制約条件
また今回、『監督采配力』の数値設定に対しては、以下のような制約を設けた。この制約を改善することで、精度の向上も期待できると考える。
制約①:対象データは、第95回大会以降とする
監督采配力の算出においては、直近の高速化は無関係のため過去データをすべて対象にすることも考えた。
ただ、監督交代や直近の采配傾向変更なども加味すると、やはり直近の監督采配力を踏まえるべきかと考え、第95回大会以降を対象とした。
制約②:サンプル数N=1の場合は、全区間平均を付与する
第95回大会以降に限定したため、サンプル数が少ないことがデメリットとして挙げられる。
例えば青山学院大学の場合、直近5年で箱根経験者が1区を走ったケースはわずか1回にとどまる。このN=1の記録を、そのまま監督采配力として当てはめてしまうと精度が著しくブレる可能性が高いと判断し、N=1の場合は、1区の采配力だけでなく、全区間の采配力の平均値を付与することとした。
制約③:直近5年未出場大学に対しては、采配力11位以降大学の平均値を付与する
例えば東京農業大学は、第100回大会に久しぶりに出場するため、直近5年の箱根駅伝におけるレースレコードが存在しない。
その場合純粋に100%を付与してしまうと、半分の大学よりは低いが、半分の大学よりは高いことになってしまう。(10位相当として扱われてしまう)
直近出場できていない大学が、突然10位相当の采配力で扱われてしまうことも実態と乖離があると判断し、采配力11位以降大学の平均値を付与(=目安15位相当)することとした。
ただし、上記の制約条件はやや感覚的な要素も交じってしまっているため、改善の余地は大きいことに留意する。
5. 分析方法
環境
例のごとく本当ならばコーディングでバシッとやりたいところだったが、
PCの都合上Excelで実施。ボタンを押すだけで出来た。
元データ
誠に勝手ながらこちらを参照させていただきました!すみません!ありがとうございます!
まったり駅伝
箱根駅伝・過去のデータ集
データ整形処理
元データを抽出後、以下処理を実施
- 直近の采配傾向を反映させるため、第95回大会以降のレコードを対象とする
- 出走時に10,000mトラックの記録を持たないランナーのレコードは除外
- 学連選抜等OP参加のランナーのレコードは除外
- 全データでの近似直線からの乖離度が上下2.5%データは外れ値として除外(前記事参照)
6. 分析結果
監督采配力は、箱根初出走/経験者別に算出しているため、それぞれでまとめる。
ただし、以下データではレコードが拾いきれない(例えば1区は歴代TOP300データを載せている)ため、ほぼアクシデントに近いようなレースレコードははじかれており、実際より高い数値になってしまっている大学もある。
箱根駅伝・過去のデータ集
ただし、アクシデントを予測に含めることで逆に精度が落ちる可能性も高いため、今回の予測でははじくことを是とする。
6.1. 初出走采配力
初出走ランナーを対象にした監督采配力ランクは以下のようになった。(TOP10)
順位 | 大学 | 全区間平均 | N数 |
---|---|---|---|
1 | 東海 | 101.08% | 24 |
2 | 駒澤 | 100.92% | 27 |
3 | 青山学院 | 100.71% | 25 |
4 | 東洋 | 100.69% | 20 |
5 | 國學院 | 100.61% | 21 |
6 | 創価 | 100.21% | 24 |
7 | 東京国際 | 100.18% | 25 |
8 | 神奈川 | 100.12% | 21 |
9 | 帝京 | 100.11% | 25 |
10 | 法政 | 100.01% | 27 |
1位東海は少し意外だった。直近だとそこまで順位は高くないが、対タイムという点では好成績なのか、あるいはアクシデントレコードが複数存在することにもよると考えられる。
とはいえ、それでも相対的には高い。
2位駒澤、3位青山学院や國學院、創価など近年順位が高くシードを安定して獲得しているような大学が上位にくることは納得。
11位以下を参考として下表に示す。
順位 | 大学 | 全区間平均 | N数 |
---|---|---|---|
11 | 早稲田 | 99.80% | 22 |
12 | 中央学院 | 99.80% | 17 |
13 | 城西 | 99.69% | 19 |
14 | 明治 | 99.61% | 25 |
15 | 大東文化 | 99.59% | 14 |
16 | 中央 | 99.59% | 22 |
- | 学連 | 99.58% | 1 |
17 | 拓殖 | 99.50% | 16 |
18 | 国士館 | 99.43% | 19 |
19 | 順天堂 | 99.35% | 26 |
- | 東京農業 | 99.21% | 0 |
- | 亜細亜 | 99.21% | 0 |
- | 関東学院 | 99.21% | 0 |
- | 平成国際 | 99.21% | 0 |
20 | 山梨学院 | 99.20% | 21 |
21 | 日本 | 99.05% | 11 |
22 | 日本体育 | 98.99% | 27 |
23 | 上武 | 98.80% | 3 |
24 | 専修 | 98.69% | 12 |
25 | 立教 | 98.63% | 9 |
26 | 駿河台 | 98.39% | 9 |
27 | 筑波 | 98.18% | 9 |
また、全区間平均は分析には活用せず、各区間ごとの采配力数値を分析には用いる。
分析に直接用いる各区間ごとの采配力数値も、念のため以下に参考として示す。
6.2. 出走経験者采配力
出走経験者を対象にした監督采配力ランクは以下のようになった。(TOP10)
順位 | 大学 | 全区間平均 | N数 |
---|---|---|---|
1 | 青山学院 | 101.20% | 24 |
2 | 日本 | 100.96% | 3 |
3 | 創価 | 100.84% | 15 |
4 | 東洋 | 100.69% | 25 |
5 | 東海 | 100.67% | 20 |
6 | 法政 | 100.63% | 17 |
7 | 順天堂 | 100.60% | 20 |
8 | 國學院 | 100.54% | 23 |
9 | 駒澤 | 100.41% | 20 |
10 | 大東文化 | 100.33% | 1 |
上位校のラインナップはある程度納得感がある(日大はサンプル数が少ないので参考程度)
一方駒澤は9位と、直近5年で優勝を2回しているものの、もしかしたら箱根経験者の起用が他大と比較すると難航しているかもしれない。
11位以下を参考として下表に示す。
順位 | 大学 | 全区間平均 | N数 |
---|---|---|---|
11 | 東京国際 | 100.19% | 21 |
12 | 中央 | 100.18% | 25 |
13 | 山梨学院 | 100.16% | 3 |
14 | 早稲田 | 100.11% | 21 |
15 | 帝京 | 100.10% | 24 |
16 | 城西 | 100.05% | 5 |
- | 学連 | 99.78% | 0 |
- | 上武 | 99.78% | 0 |
- | 立教 | 99.78% | 0 |
- | 駿河台 | 99.78% | 0 |
- | 筑波 | 99.78% | 0 |
- | 東京農業 | 99.78% | 0 |
- | 亜細亜 | 99.78% | 0 |
- | 関東学院 | 99.78% | 0 |
- | 平成国際 | 99.78% | 0 |
17 | 拓殖 | 99.71% | 11 |
18 | 明治 | 99.66% | 21 |
19 | 専修 | 99.50% | 5 |
20 | 中央学院 | 99.47% | 9 |
21 | 神奈川 | 99.45% | 15 |
22 | 国士館 | 99.32% | 18 |
23 | 日本体育 | 99.17% | 16 |
また、全区間平均は分析には活用せず、各区間ごとの采配力数値を分析には用いる。
分析に直接用いる各区間ごとの采配力数値も、念のため以下に参考として示す。
7. 結論
結論は、分析結果と同じ。
8. 限界
監督采配力の精度については、改善の余地はたぶんにあると考えられる。
やはり大学別×区間別×出走経験有無別だと、1セグメントあたりのサンプル数は少なくなってしまうので、どのように対応するかがポイントになる。
また、実際機械学習を行うときに、このような変数を作成して含めた方が良いのか、あるいは学習の中でこのような潜在的な変数を見つけてくれるので、余計なことをしない方がいいのか現時点で分かっていない(でも、おそらく不要であれば学習の中で勝手に消されるだけだから入れてもいいかも?)ので、今後確認する。
(個人的にはオリジナル変数のような気がするので、ぜひ学習には入れていきたいと思っている)
また、やや最後殴り書きになってしまってことを反省している。
9. 次分析
次は今回算出した『大学別監督采配力』をもとに、『潜在的個人ロード力』を算出するためのロジックについて整理する。
お願い
皆さまからのデータ提供&いいねなど、いつでもお待ちしています。。。