いよいよ本丸の一つ、結局10,000mトラックタイムと箱根駅伝の区間タイムってどれくらい相関あるの? 分析をしていく。
散布図に近似直線を引いたりはしていたので、大まかな傾向はわかっているが、実際に数値として見てみる。ことに意味がある。と思うことにする。
相関分析を行うことで、仮に相関係数が著しく高かった場合、区間タイムの予測は10,000トラックタイムで高精度で予測できることになる。
(もちろんそうなることはないが……)
また、実際に箱根駅伝をテレビでみるときに参考で10,000mトラックタイムが表示されるが、このトラックベストが各区間でどの程度参考になるのかをあわせて知ることが出来る。
<前記事>
箱根駅伝データ分析物語 #2-1:箱根高速化(散布図-往路)
箱根駅伝データ分析物語 #2-2:箱根高速化(散布図-復路)
箱根駅伝データ分析物語 #2-3:箱根高速化(t検定・F検定)
1. 分析目的
先述。
2. 分析方法
環境
例のごとく本当ならばコーディングでバシッとやりたいところだったが、
PCの都合上Excelで実施。ボタンを押すだけで出来た。
元データ
誠に勝手ながらこちらを参照させていただきました!すみません!ありがとうございます!
まったり駅伝
箱根駅伝・過去のデータ集
データ整形処理
元データを抽出後、以下処理を実施
- 出走時に10,000mトラックの記録を持たないランナーのレコードは除外
- 学連選抜等OP参加のランナーのレコードは除外
- 全データでの近似直線からの乖離度が上下2.5%データは外れ値として除外(前記事参照)
相関分析も、回帰分析に繋げるための分析なので、全データではなく明らかに相関を乱しそうな外れ値は除外して算出した。
3. 分析結果
各区間の相関係数に対して、せっかくなので以下2種類での比較を実施する。
- 第95回以降大会における区間同士の比較(どの区間が最もトラックタイムと相関するか?)
- 各区間ごとに第95回以降/第94回以前での相関係数の比較(どの区間が厚底によりトラックタイムとの相関関係が変化したか?)
知らなかったのだが、厳密には相関係数についてもt検定同様
その相関関係自体、あるいは比較の発生確率に対する有意差検定を実施する必要があるようだ。
相関係数の差を検定したいとき(エクセルでできる方法)
今回は相関関係自体に対する検定は面倒なので割愛し、比較に対する検定のみ行った。(ごめんね)
3.1. 区間同士の比較(第95回以降)
区間別の10,000トラックベストvs区間タイムの相関係数は以下のとおり。
Z値はご愛嬌。
- 相関自体は必ずしも大きいとは言えないが、全くないとも言えない。
- 相関係数としては2区が最も大きく、その後4区、5区、8区と続く。一方一番小さいのは1区、ついで7区、10区
- やはり往路区間は記録会で何本か走る主力選手が出てくるため、タイムと実力が一定比例しているケースが多いか。その中で5区が相関が高いのは意外。やはり適性重要区間と言えども基本的な総力は必要になるということか(8区も登り区間だから?)
- 一方で1区は往路区間だが、集団走が基本かつ最近は凌ぐ区間として定着しつつあるのでタイムが直結するわけではない
- また特に7区は直近のタイムを持たない1年生や怪我明けのエースが出走することも多いため、この区間もまた直結しづらいということか
区間同士の相関係数の比較が5%有意かどうかを念のため確認した。結果は以下のとおり。
- p値0.05未満の区間が、その区間の相関関係の差分は5%有意だと言える
- サンプル数僅少のわりに区間ごとの差が小さいため、ほぼ有意にならなかった(残念)
- しかし、最も相関係数の小さい1区と大きい2区は有意な差となった。
とはいえ、純粋にこの結果を踏まえると何も言えなくなってしまったので、一旦5%有意だとして(それでいいのか)、区間ごとの10,000m相関の高さに対して優劣をつけて結論とする。
順位 | 区間 | 相関係数 |
---|---|---|
1位 | 2区 | 0.59 |
2位 | 4区 | 0.56 |
3位 | 5区 | 0.53 |
3位 | 8区 | 0.53 |
5位 | 3区 | 0.52 |
6位 | 9区 | 0.40 |
7位 | 6区 | 0.38 |
8位 | 10区 | 0.33 |
9位 | 7区 | 0.32 |
10位 | 1区 | 0.25 |
(参考)相関係数の大きさの目安
0.7 ~ 1.0 かなり強い正の相関がある
0.4 ~ 0.7 正の相関がある
0.2 ~ 0.4 弱い正の相関がある
-0.2 ~ 0 ~ 0.2 ほとんど相関がない
-0.4 ~ -0.2 弱い負の相関がある
-0.7 ~ -0.4 負の相関がある
-1.0 ~ -0.7 かなり強い負の相関がある
3.2. 第95回以降/第94回以前の変化の比較(区間別)
第95回以降/第94回以前それぞれにおける区間別の10,000トラックベストvs区間タイムの相関係数は以下のとおり。
- 第94回以前→第95回以降で相関係数の変化が最も大きかったのは5区(0.21→0.53)、次点が1区(0.52→0.25)、その次が4区(0.32→0.56)となった
- 5区については、p値が0.05を上回っているかつサンプル数僅少のため確定的なことは言えないが、以前までは適性ゴリ押しかつ記録会に出ないランナーも適性があれば出走していたような配置傾向だったが、厚底普及により適性重要度が下がり(他区間よりは依然として高いが)、平地走力も一定必要になってきたことによる変化だと推察される
- 1区の相関下がり4区が上がったことについては、これも1区は過去準エースが出走していたが、近年は4区に準エースを配置する傾向に変化しているため、その配置傾向の変化が反映されたものかと思われる。
- その他の区間については、そこまで大きな(有意な)変化は見られなかった。特に2区、3区、8区は過去も直近も相関係数が大きい結果となっている。(8区は結構意外)
3.3. まとめ
第95回以降大会における区間同士の比較
順位 | 区 | 相関係数 |
---|---|---|
1位 | 2区 | 0.59 |
2位 | 4区 | 0.56 |
3位 | 5区 | 0.53 |
3位 | 8区 | 0.53 |
5位 | 3区 | 0.52 |
6位 | 9区 | 0.40 |
7位 | 6区 | 0.38 |
8位 | 10区 | 0.33 |
9位 | 7区 | 0.32 |
10位 | 1区 | 0.25 |
各区間ごとに第95回以降/第94回以前での相関係数の比較
第94回以前→第95回以降で相関係数の変化が最も大きかったのは5区(0.21→0.53)、次点が1区(0.52→0.25)、その次が4区(0.32→0.56)となった
4. 結論
相関分析を行った結果、やはり10,000トラックタイムだけで区間タイムが予測できるほど甘くはなかったが、目的変数に与える影響度は小さくはないことも確認できた。
予測するうえでは、10,000トラックタイムを基本になる説明変数の一つとしてとらえつつ、他特徴量の抽出が必須。
5. 限界
何かあったのだが、忘れてしまった。
6. 次分析
10,000トラックタイムだけで区間タイムが予測できるほど甘くはなかったが、ひとまず説明変数:10,000トラックタイム、目的変数:区間タイムでの回帰分析を実施してみる。
これは、第100回箱根駅伝が迫っている中で、この短期間では機械学習の予測は困難なので、10,000トラックタイムをベースにした予測を急ピッチでやってみようとしている裏事情による(正直)
お願い
皆さまからのデータ提供&いいねなど、いつでもお待ちしています。。。
参考
箱根駅伝データ分析物語 #2-1:箱根高速化(散布図-往路)
箱根駅伝データ分析物語 #2-2:箱根高速化(散布図-復路)
箱根駅伝データ分析物語 #2-3:箱根高速化(t検定・F検定)
相関係数の差を検定したいとき(エクセルでできる方法)
相関係数の強い・弱いの目安