現在、編集中です・・・
Recruit Restaurant Visitor Forecastingについて
文章構成はこちらを参考に書きました。
コンペ概要
kaggle - recruit-restaurant-visitor-forecasting
Predict how many future visitors a restaurant will receive
とあるようにレストランの来客数を予測するコンペですね。
データ概要
リクルートが保持する
-
ホットペッパー(Hot Pepper Gourmet - a restaurant review service)
- ホットペッパーを利用し、予約した時間、来客した時間、予約して来客した人数
- ホットペッパーが保持する店舗データ、店舗のジャンル、出店している地域、緯度・経度
- Airレジ( AirREGI - a restaurant point of sales service)
-
レストランボード(Restaurant Board - reservation log management software)
- Airレジを利用し、予約した時間、来客した時間、予約して来客した人数
- Airレジが保持する店舗データ、店舗のジャンル、出店している地域、緯度・経度
- 来客時間、来客数
- その他
- 休日データ
のデータを利用する。
また、外部データの利用が認められており、今回天気データが利用されたカーネルが多かった模様。
- kaggle - Am I Allowed to Post the Weather Data?
- kaggle - Weather Data Version 5
- Weather Data for Recruit Restaurant Competition
参考:
kaggle - recruit-restaurant-visitor-forecasting - data
手法
上位手法リンク
前処理
特徴量
休日データ
全体を通して休日であるかをフラグとして使っていた。また曜日が金曜日以降の日にさらに別の休日フラグを立てていた、要するに次の日が休みであるかどうかがスコア向上に役立ったと思われる。
- 前日が休日フラグ、明日が休日フラグ(8th place solution write-up)
余談だが「どうやら日本ではゴールデンウィークという休暇があるらしく、その休暇を使ってよく外出するらしい」みたいな議論がされていて面白かった。参考リンク
天気データ
上位陣の解法では入れた場合、入れていない場合があった。
- 平均温度、雨量を使った(12th place insight/detailed approach)
- 同じく平均温度、雨量を使った(My first kaggle and 11th place solution sharing)
モデル
- 3モデル(xgb, lgb, nn)