なんだか、こんな感じで分析を進めると論文一つくらい書けるような気もしてきた。
卒論の題材を探している箱根駅伝ファンのそこの君!ぜひ引用してくださいどうかこの通りですお願いします一生のお願い(重い)
前記事では、直近叫ばれている箱根駅伝高速化について、散布図に対する近似曲線の傾きから視覚的に高速化の有無を判断した。
<前記事>
箱根駅伝データ分析物語 #2-1:箱根高速化(散布図-往路)
箱根駅伝データ分析物語 #2-2:箱根高速化(散布図-復路)
今回は、せっかくなので本当に高速化が起きているかを
統計学的にも検証する(F検定&t検定)
1. 分析目的
今回の目的は、
第95回(本当は96回にしたかった)以降の箱根駅伝の区間タイムは、
第94回以前のタイムと比較して速くなっているのかを検証すること。
速くなっていることが統計学的にも検証された場合、今後の予測をするうえでは何かしらの補正をする(94回以前は学習に使わない、何かしらの係数を全データに掛けて補完する等)必要が生じる。
2. 分析方法
2.1. 分析手法
t検定・F検定のコンボで実施する。
大学で統計関連の授業をとったことのある人は一度くらいは耳にしたことがあるだろうこの単語。僕も耳にしたことはあり、なんだかよく分からないがとりあえずExcelのボタンを押したら検定できた、くらいだった。
またこんなところで出会うことになるとは。
t検定・F検定とは何ぞや、という話は多分ネットにたくさん出ているので、別途ご参照。僕は以下記事を読んで思い出しました。
T検定とは?具体例でわかりやすく!F検定で等分散の確認が必要?
F検定とは 概要と活用方法
簡潔に言えば、2つのデータ群のデータ傾向(分散・平均)に差異があるのかどうかを検証するための検定手法だと理解。
まさに今回の「第95回(本当は96回にしたかった)以降の箱根駅伝の区間タイムは、第94回以前のタイムと比較して速くなっているのか」の分析方法としてピッタリだと思う。
本来であればt検定だけでいいと思うのだが、F検定の結果によって実施するt検定の種類が若干異なるため、F検定も実施する。
2.2. t検定のロジック
機械的にt検定を実施することは可能だが、ロジックまで理解したうえで実施したいというそこの君、とても大切な視点だと思います。
長くなるので僕の方では割愛してしまうのですが、以下記事などは参考になるかと思いました。
【5分で分かる】t検定の概要とPythonやRでの実装方法!
ポイントは、t検定とは、対象データ群の平均の差分がないと仮定したときに、対象データ群のようなデータが得られる確率を算出し、
- 5%未満の場合は「差がある」(=発生確率が5%未満の事象が発生している=元々の仮説が誤っている)
- 5%以上の場合は「差があるとは言えない」
という結論が導き出されるような検定ということか。
2.3. その他情報
環境
本当ならばコーディングでバシッとやりたいところだったが、
PCの都合上Excelで実施。逆にExcelで十分できるところがすごい。
Excelでのやり方は以下を参考にした。
エクセルでできる!t検定の使い方、選び方と具体的な分析方法
エクセルを使ったt検定のやり方(関数と分析ツール)
元データ
誠に勝手ながらこちらを参照させていただきました!すみません!ありがとうございます!
まったり駅伝
箱根駅伝・過去のデータ集
データ整形処理
元データを抽出後、以下処理を実施
- 出走時に10,000mトラックの記録を持たないランナーのレコードは除外
- 学連選抜等OP参加のランナーのレコードは除外
- 全データでの近似直線からの乖離度が上下2.5%データは外れ値として除外(前記事参照)
3. 分析結果
各区間の区間タイムおよび出走者の出走時10,000mベストそれぞれについて、t検定・F検定を実施した。
繰り返しだが、F検定はあくまでt検定の種類を決定するために実施した。(対応なし×等分散性の仮定有無)
有意水準は5%を設定。
表の見方としては、t検定のp値について、
-
p値が0.05未満の場合:
有意水準5%で帰無仮説は棄却される=第95回以降と第94回以前のデータ群は平均値の観点から差がある -
p値が0.05以上の場合:
有意水準5%で帰無仮説は棄却されるとはいえない=第95回以降と第94回以前のデータ群は平均値の観点から差があるとはいえない
と結論づけることができる。
ここの言い回しはかなり細かいところだが重要なので要注意!
以下記事が参考になる。
3.1. 区間タイム
各区間の区間タイム(第95回以降/第94回以前)のデータ群に対するt検定・F検定の結果は以下のとおり
全区間で区間タイムのt検定p値が0.05を下回った
⇒統計学的にも、第95回以降/第94回以前のデータ群は平均値の観点から差がある
⇒平均値を比較しても、第95回以降は第94回以前よりも速くなっている
よって、今回の分析目的は達成された。
と思いきや、本来は念のために出走時10,000mベストタイムについても検定を実施する必要がある。
3.2. 出走時10,000mベストタイム
出走時10,000mベストタイムについてもt検定・F検定を実施。結果は以下のとおり。
5区以外の区間で区間タイムのt検定p値が0.05を下回った
⇒平均値の観点からは、5区以外の区間の出走者の出走時10,000mベストタイムは第94回以前よりも第95回以降の方が速くなっている
5区については、適性重視区間のため、出走判定に10,000mベストをそこまで参考にしない、ということがあるのか…相関分析などを踏まえて傾向を見ると面白いかも
3.3. まとめ
- 区間タイム:全区間で高速化
- 出走時10,000mベストタイム:5区以外の区間で速くなっている
4. 結論
今回のt検定の分析目的は、以下のように設定していた。
第95回(本当は96回にしたかった)以降の箱根駅伝の区間タイムは、
第94回以前のタイムと比較して速くなっているのかを検証すること。
速くなっていることが統計学的にも検証される場合、今後の予測をするうえでは何かしらの補正をする(94回以前は学習に使わない、何かしらの係数を全データに掛けて補完する等)必要が生じる。
ただ、今回の検定結果からだけでは、データ補正が不要のケースも考えられた。
なぜなら、近似するうえで
X軸(出走時10,000mベストタイム)・Y軸(区間タイム)がともに同程度高速化している場合、近似式自体は第95回以降/第94回以前で同一になりうるからである。
ただ、前記事で分析したように実際に近似線を引くと、第95回以降の方が近似線が下にあるため、その結果を踏まえると
『トラックもロードも高速化しているが、ロードの方がより高速化している』 と結論づけることができる。
よって、今後の予測をするうえでは、何かしらの補正をする(94回以前は学習に使わない、何かしらの係数を全データに掛けて補完する等)必要が生じる。
5. 限界
本当ならば第95回以降/第94回以前という分類だけでなく、
例えば第94回以降/第93回以前での比較や、そもそも95回/94回で差があるのか、96回/95回、94回/93回は差がないのか等を検証することで、
この高速化の理由の一つが厚底によるものという仮説をより強めることが出来たと思うが、時間&サンプル数僅少のため断念。
6. 次分析
次はいよいよ本丸の一つ、そもそも10,000mベストタイムと区間タイムってどれくらい相関があるの?という観点で単回帰分析を実施する。
どの区間が最も10,000mベストタイムと相関があるのか、も比較可能のはず。
お願い
皆さまからのデータ提供&いいねなど、いつでもお待ちしています。。。
参考
T検定とは?具体例でわかりやすく!F検定で等分散の確認が必要?
エクセルでできる!t検定の使い方、選び方と具体的な分析方法
F検定とは 概要と活用方法
エクセルを使ったt検定のやり方(関数と分析ツール)
【5分で分かる】t検定の概要とPythonやRでの実装方法!