##概要
前回からの続きです。
【機械学習でフルマラソンのゴールタイムを予測】と題して、ランニングの練習時のデータからフルマラソン(42.195㎞)を走った場合のゴールタイムを予測するために、データ収集からモデル作成・予測までの一連の流れを書いていきます。
前回記事(機械学習でフルマラソンのゴールタイムを予測~①:RuntasticのデータをGarmin Connectに取込~)では、これまでRuntastic(アプリ)とGarmin(ランニング用スマートウォッチ)を使って記録した練習時のデータを1か所(Garmin)に統合すべく、RuntasticのデータをGarminに取り込む方法について記載しました。
今回はその統合したデータをcsv形式で出力し、不要な項目の削除と必要なデータの追加を行う手順について記載していきます。
pixtabayより
##Garmin Connectからデータをエクスポート
学習データとするランニング練習時のデータを
Garminのクラウドからcsv形式でエクスポートします。
①Garmin Connectにサインイン
②アクティビティ->すべてのアクティビティ をクリック
CSVをエクスポートをクリック
③CSVファイルがダウンロードされますが、なぜか文字化けしてしまいます。
※列名・行名以外の値はマスキングしています。
④文字化けを解消するため、メモ帳で③のcsvファイルを開きます。
ダウンロードしたCSVファイルをエクスプローラ上で右クリック->
プログラムから開く->メモ帳 をクリック
このようにしてメモ帳で開くと文字化けせずに開けます。
⑤左上のファイル->名前を付けて保存のダイアログボックスで文字コードANSIを選択し保存。
⑦再度csv形式で開くと文字化けせずに開けることが確認できます。
##データ項目の削除と追加
- データ項目の削除
Garmin Connectからエクスポートしたcsvファイルには、以下の30項目のデータが記載されています。
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
アクティビティタイプ、日付、お気に入り、タイトル、距離、カロリー、タイム、平均心拍数、最大心拍数、有酸素TE、平均ピッチ、最高ピッチ、1㎞あたりの平均ペース、1㎞あたりの最高ペース、高度上昇、高度下降、平均歩幅、平均上下動比、平均上下動、Training Stress ScoreR、グリット、フロー、総クライミング時間、潜水時間、最低気温、水面休息、減圧、ベストラップタイム、走行回数、最高気温
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
とてもたくさんありますが、"潜水時間"などランニングに関係ない項目や、一部データが取れていない項目があるため、分析に必要な項目に絞ります。
今回はタイムや走行距離に影響がありそうな以下の10項目に絞りました。
これら以外の列はこの時点で削除します。
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
日付、距離、タイム、平均心拍数、最大心拍数、有酸素TE、平均ピッチ、1㎞あたりの平均ペース、1㎞あたりの最高ペース、平均歩幅
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
- データ項目の追加
これら10項目の他にタイムや走行距離に影響を与える因子として考えられる以下の4項目をcsvファイルに列追加します。
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
走り始めの気温、走り始めの風速、その週の就業時間、その週の1日あたりの平均睡眠時間
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
よって、最終的にこれら14項目で学習データを作成していきます。
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
日付(yyyy/mm/dd HH:MM:ss)、距離(㎞)、タイム(HH:MM:ss)、平均心拍数(bpm)、最大心拍数(bpm)、有酸素TE、平均ピッチ(歩/分)、1㎞あたりの平均ペース(HH:MM:ss/㎞)、1㎞あたりの最高ペース(HH:MM:ss/㎞)、平均歩幅(cm/歩)、走り始めの気温(℃)、走り始めの風速(m/秒)、その週の就業時間(h/週)、その週の1日あたりの平均睡眠時間(HH:MM:ss/日)
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
- 学習データの作成
Garminでもともと記録されていて、エクスポートしたcsvファイル記載されている項目以外に自分で追加した項目(走り始めの気温、走り始めの風速、その週の就業時間、その週の1日あたりの平均睡眠時間)については、地道に1つずつ調べてデータを埋めていく必要があります。
走り始めの気温と風速は、気象庁の過去の気象データ検索より地域ごとに10分単位でデータを取得することができます。
もっと便利な方法があるのかもしれませんが、それを調べている時間の方が勿体ないのでここは地道に1練習日(=学習データ1レコード分)ずつ調べてcsvファイルの該当箇所に書き加えていきます。
就業時間、平均睡眠時間についても同様に職場の就業記録や睡眠時に腕に身につけているスマートウォッチで記録されたデータから、該当の日付のデータを調べてcsvファイルに書き加えます。
このようにして地道に学習データを作成した結果、以下のような学習データを63レコード分作成することができました!
1レコードのサンプルデータ↓
Practice Time | Distance | Time | Average heart rate | Max heart rate | Aerobic TE | Average pitch | Average pace | Max pace | Average stride | temperature | Wind speed | Work | Average sleep time |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2020/2/23 16:18:00 | 8.19 | 0:59:35 | 161 | 180 | 3.6 | 176 | 00:07:16 | 00:06:11 | 0.78 | 7.9 | 9 | 44.5 | 6:12:00 |
次回はこの学習データを使いPythonで可視化していきます!
pixtabayより