0

More than 5 years have passed since last update.

[Survey] Kaggle - Santander 14位解法まとめ

Posted at 2017-09-24

Kaggle - Santander Product Recommendation¹の14位解法²の調査記事です．

Title: Some ideas from my solution
Author: alijs
Kaggle https://www.kaggle.com/c/santander-product-recommendation/discussion/26808

データ

解法の中核は2015年6月だったが，2015年6月〜2016年5月までのデータが季節性とトレンドのため性能改善につながった．
2016年5月+その他の月の多くの異なるペアに対してアンサンブルを取って予測
理想の分布で異なる月からサンプリングしたデータで訓練した．(単独モデルとしては性能はいまいちだったが，組み合わせることで性能改善に繋がった)

特徴量

他参加者と同様(lag-5, month-1の製品, month-2の製品など)
データ選択と後処理に時間を費やしていたことは失着だったとのこと．

モデル

XGBoostとKerasのNNモデルで予測(予測結果は平均することでアンサンブル)

後処理

特徴量nominaの予測値 > 特徴量nom_pensの予測値なら，nom_pensの予測値としてnomina+0.00001を設定．
特徴量cnoの予測値 < 特徴量nom_pensの予測値なら，cnoの予測値として(cnoの予測値+nom_pensの予測値)/2を設定
特徴量delaの予測値を-0.15減算
特徴量recaの予測値を1.4倍
特徴量demeやviv,decoからの予測値を除去

後処理は非常に大きい改善に繋がったが，過学習の可能性も高かった．
後処理を行った版とそうでない版の二種類を提出．(どちらが良かったかは定かではないとのこと)

References

Kaggle, Santander Product Recommendation. ↩
alijs, Some ideas from my solution. ↩

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0