KaggleのKernel手法まとめ[テーブル時系列データ編]

110

Last updated at 2019-12-28Posted at 2019-12-28

この記事では、Kaggleコンペにおいてデータ型ごとの定石みたいなものを書いていきます。また、コンペ関係なく精度が出ない時のヒントなどになれば良いなと思います。

今回は以下のコンペ・データセットに触れていきます。コンペの場合はKernelがないので、Notebooksをまとめて行こうと思います。
Predict Future Sales
Avocado Prices

1.Predict Future Sales

タイプ:回帰
概要:店の名前、商品の名前などから翌月1ヶ月での商品の売り上げ個数を予測

実行した分析	結果
特徴量のヒストグラムの可視化	カテゴリに偏りがある事を発見
時系列順に特徴量のプロット	季節ごと、またトレンドの入れ替わりがある事がわかる
ADF,KPSS,PPでステーショナリティ(周期性)をチェック	周期性の有無を知る
AR, MA, ARMAモデルなどを試す

他にもHierarchical time series(ヒエラルキー時系列)におけるアプローチの仕方、ボトムアップ、トップダウン、ミドルアウトを紹介しています。

とりあえず時系列データは時期によるアップダウンをどんな風に数式に落としていくかが大事なんですねー

実行した分析	結果
特徴量を可視化	ノイズデータを見つけたので他の数値で補間
特徴量エンジニアリング(月平均を日ごとの売り上げから出す、ある期間における売り上げの平均を特徴量として追加など)	精度の向上
xgboostで予測

時系列としての情報を地道に特徴量エンジニアリングで特徴量に落とし込んで、xgboostで予測するという形でした。この地道な特徴量エンジニアリングすごい〜

実行した分析	結果
特徴量の可視化	季節ごとのパターンを発見・特徴量に落とす事を決めた
LSTMで予測

実行した分析	結果
特徴量エンジニアリング(売り上げが数ヶ月ない店をグルーピングする、店の名前の重複を発見、名前からカテゴリを抽出et)	精度の向上