LoginSignup
1
1

箱根駅伝データ分析物語 #4:回帰分析(10,000mトラックタイム(x軸)×区間タイム(y軸))

Posted at

本丸の二つ目、区間タイム(y軸)に対する10,000mトラックタイム(x軸)の回帰分析を行う。

今回はただ単回帰分析を実施するだけなので、この分析結果から何か示唆が出るわけではないことが残念…。

一応、前記事とリンクしている。
箱根駅伝データ分析物語 #3:10,000mトラックタイムvs区間タイム(相関分析)

1. 分析目的

本当なら機械学習でバシッと予測したいところだったが、
第100回箱根駅伝が迫っている中で、この短期間では機械学習の予測は困難なので、10,000トラックタイムをベースにした予測を急ピッチでやってみようとしている裏事情による(正直)(前記事でも書いた)

しかしこの単回帰のみで予測してしまうと超低精度になってしまうので、この単回帰分析の結果をもとにした追加分析も実施する。

2. 分析方法

環境

例のごとく本当ならばコーディングでバシッとやりたいところだったが、
PCの都合上Excelで実施。ボタンを押すだけで出来た。

元データ

誠に勝手ながらこちらを参照させていただきました!すみません!ありがとうございます!
まったり駅伝
箱根駅伝・過去のデータ集

データ整形処理

元データを抽出後、以下処理を実施

  • 厚底による高速化の影響を踏まえ、第95回大会以降のレコードを対象とする
  • 出走時に10,000mトラックの記録を持たないランナーのレコードは除外
  • 学連選抜等OP参加のランナーのレコードは除外
  • 全データでの近似直線からの乖離度が上下2.5%データは外れ値として除外(前記事参照)

3. 分析結果

今回は特段示唆などもなく、単回帰分析の結果のみを区間別に以下に並べる。

各図における近似直線の傾きが大きい区間は相関が強く、小さい区間は相関が弱いわけではないことに留意。

1区:スターター区間

N=83

縦軸:1区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.05

IMG_5159.png

2区:エース区間

N=84

縦軸:2区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.35

IMG_5160.png

3区:湘南の風区間

N=88

縦軸:3区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.27

IMG_5161.png

4区:準エース区間

N=99

縦軸:4区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.31

IMG_5149.png

5区:山登り区間

N=99

縦軸:5区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.28

IMG_5150.png

6区:山下り区間

N=98

縦軸:6区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.14

IMG_5151.png

7区:ザ・繋ぎ区間

N=88

縦軸:7区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.10

IMG_5155.png

8区:遊行寺の坂区間

N=85

縦軸:8区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.28

IMG_5156.png

9区:裏エース区間

N=83

縦軸:9区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.16

IMG_5157.png

10区:アンカー区間

N=76

縦軸:10区区間タイム
横軸:出走時10,000mベストタイム

R2乗値:0.11

IMG_5158.png

4. 結論

区間 R2乗値 傾き 切片
1区 0.05 0.40 51.3
2区 0.35 1.03 38.7
3区 0.27 1.14 30.2
4区 0.31 1.47 20.8
5区 0.28 1.58 27.1
6区 0.14 0.72 38.7
7区 0.10 0.49 50.1
8区 0.28 1.11 33.3
9区 0.16 0.72 49.1
10区 0.11 0.58 53.8

R2乗値はモデル適合度の目安として算出され、相関係数の2乗で算出される。
一般的な目安としては、R2乗値が0.5(相関係数=0.7)程度以上だと、モデルの適合度は一定高いと言われている。

今回、各区間ごとのモデル適合度でR2乗値が0.5を超える区間はないが、10,000mトラックベストだけでモデル構築はできないため、想定内の結果となった。
やはり、この説明変数に加えて、新たな特徴量を抽出していく必要がある。(100回目)

決定係数(R2乗値)は、ノーマルな決定係数と自由度調整済み決定係数の2種類あるが、今回は単回帰分析のため、ノーマル決定係数のみ載せた。

自由度調整済み決定係数は、重回帰分析の際に役立つ。(らしい)

5. 限界

この分析に、限界はない。

6. 次分析

前記事からしきりに言っている、10,000mトラックベスト以外の特徴量について分析を試みる。
今回第100回大会の臨時予測に向けて、2つの変数を考えた。
『大学別監督采配力』『潜在的個人ロード力』 の2つである。

次分析ではまず、『大学別監督采配力』 についての分析を行う

お願い

皆さまからのデータ提供&いいねなど、いつでもお待ちしています。。。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1