Kaggle - Santander Product Recommendation1の13位解法2の調査記事です.
Title: #13 solution sharing
Author: Sameh Faidi
Kaggle https://www.kaggle.com/c/santander-product-recommendation/discussion/26816
特徴量
製品関連(24製品)
- 直近3ヶ月間の製品の状態(0,1)
- 追加/削除/変更なし(1,-1,0)
- 先月と同じであった月の数(例: 今が2016年5月で2016年1月〜4月が0なら,4となる)
- 最後の5ヶ月で商品が1かつ0である月の数???
顧客関連
- ほぼ全ての数値的またはカテゴリ特徴量(カテゴリ特徴量はONE-HOT表現)
- 特徴量rentaとageでグループ分け(例: 国や週でのrentaの平均値での比率を算出し,年齢層ごとにグループ分け)
その他
- 月ごと指標(0〜17)と対象月(1〜12)
- パターンを捉えるために前月の商品の小数での表現
効果なかったこと.
- 平均や中央値を利用することでデータに対するクリーニングのメリットはなくなった.(Nanを0に書き換えるなどの基本的な動作は除く)
- 特徴量fecha_altaは関係なかった
- EnsemblingやStackingも効果なかった
学習
- XGBoostを用いて2015年4月〜6月と2016年3月〜5月の期間で学習
References
-
Kaggle, Santander Product Recommendation. ↩
-
Sameh Faidi, #13 solution sharing. ↩