Kaggle - Santander Product Recommendation1の14位解法2の調査記事です.
Title: Some ideas from my solution
Author: alijs
Kaggle https://www.kaggle.com/c/santander-product-recommendation/discussion/26808
データ
- 解法の中核は2015年6月だったが,2015年6月〜2016年5月までのデータが季節性とトレンドのため性能改善につながった.
- 2016年5月+その他の月の多くの異なるペアに対してアンサンブルを取って予測
- 理想の分布で異なる月からサンプリングしたデータで訓練した.(単独モデルとしては性能はいまいちだったが,組み合わせることで性能改善に繋がった)
特徴量
- 他参加者と同様(lag-5, month-1の製品, month-2の製品など)
- データ選択と後処理に時間を費やしていたことは失着だったとのこと.
モデル
- XGBoostとKerasのNNモデルで予測(予測結果は平均することでアンサンブル)
後処理
- 特徴量nominaの予測値 > 特徴量nom_pensの予測値なら,nom_pensの予測値としてnomina+0.00001を設定.
- 特徴量cnoの予測値 < 特徴量nom_pensの予測値なら,cnoの予測値として(cnoの予測値+nom_pensの予測値)/2を設定
- 特徴量delaの予測値を-0.15減算
- 特徴量recaの予測値を1.4倍
- 特徴量demeやviv,decoからの予測値を除去
後処理は非常に大きい改善に繋がったが,過学習の可能性も高かった.
後処理を行った版とそうでない版の二種類を提出.(どちらが良かったかは定かではないとのこと)
References
-
Kaggle, Santander Product Recommendation. ↩
-
alijs, Some ideas from my solution. ↩