機械学習
データ分析

データ分析コンペに出場してみた(Kaggleの前に)

データ分析コンペに初めて出場してみたので忘備録

出場したコンペ

データ分析コンペといえばKaggleだと思うけど,英語だし難しそう.
Titanicコンペというチュートリアルはやったけどその後止まっている人は多そう.
今回はオプトDSLの引っ越し需要予測チャレンジに出場.
Kaggleと違って日本語で初心者にとってやりやすいと思う.
難点としては,kernelやdiscussionがないので知見が貯まりにくい.一人でやっている感じがする.

コンペ結果

今回は引っ越しの需要を予測するコンペに出場し,36位/235位だった.1日3回サブミットできるコンペで41回もサブミットしている..結構時間かけたので後半の失速が残念.

やったこと

今回のコンペはデータが非常に綺麗でデータ量も少なく,初心者にとってはありがたかった.モデルはXgboostを決め打ちで使っていました.

特徴量抽出に関しては,既にある日付のデータから,年ラベル,月ラベル,週ラベル,日ラベルを取得してました.目的変数は基本的に動かさずに説明変数ばっかりいじっていました.(途中,六曜(仏滅とかのアレ)のデータも取得しましたがほとんど意味がありませんでした.)

クロスバリデーションも手法を何通りかいじって,ランダム抽出や時系列の並びを保存させた手法等を試しました.(結局時系列を守った形式で取得しました.)

結果

・目的変数を調整するという考え方がなかったので反省.
・オンラインとオフラインのデータの違いに苦しめられた.

まとめ

・Kaggleの前にDSLに挑戦してみても良いかも(最初の1ステップ目が難しいので)
・Xgboostのアルゴリズムは理解していなくてもコンペには出られる.
 (理解したほうが良いのはもちろん.)
・ハイパーパラメータのチューニングの前にデータ見ようぜ.