More than 5 years have passed since last update.

2019 Data Science Bowl まとめ

Posted at 2020-02-12

はじめに

やっとテストが終わったので、DataScienceBowl2019の簡単なアウトプットでもしようと思います。今更だとは思いますが、初めてのコンペで、せっかく参加したので復習しようと思いました。

正直な話、初めてのコンペで手も足も出なかったので、上位入賞者の手法を簡単にまとめていきます。
まだまだ若輩者でおかしなところもあると思いますが、何かございましたら是非ご指摘お願いします。

※現在は２位までしかまとめていませんが、時間があればもう少し追加でまとめたいと思ってます。

マルチシードの５Foldに基づくLightGBMのシングルモデル
private score: 0.568
public score: 0.563

初期の段階で、LBが不安定で local cv との相関が小さかったため local cv のみに着目することにした。
以下の２つの validation set を使用

GroupK CV
- installation_idを5分割を５回
- 格分割で異なる列順序とseed値を使用
- qwkは安定しなかったので重み付きrmseを使用
Nested CV
- GroupK CV が直感に反するような結果の時に使用
- 全データを使用した1400のユーザデータをtrainに、一部のデータを打ち切った2200のユーザデータをtest に使用
- 50〜100回繰り返して平均スコアをとる

およそ2万個の特徴量を作成して、null importancesを利用して500個の特徴量を選択。

LightGBM, CatBoost, NN のアンサンブルモデル
public score: 0.563
private score: 0.563

Word2Vec の利用
- assessment までの title の流れを文章と捉えて Word2Vec でベクトル化
- 各統計量を計算
Historical feature
- session, world, types, title, event_id, event_code の履歴データをワールド別、または全ワールドごとにカウント
- event_round, game_time, event_count の履歴データの Count, mean, max を計算
Decayed historical feature
- title, type, world, event_id, event_code について履歴データの減衰してカウント
- session ごとに半減
Density of historical feature
- title, type, world, event_id, event_code の履歴データの密度を計算
- 各カウントを初起動日からの経過に数で割る
Lagged Assessment
- num_correct, num_incorrect, accuracy, accuracy_group の統計量を計算
- 過去のassessmentからの経過時間を計算
Meta Features
- 各titleのassessmentごとの評価を特徴量として追加
- それを予測して、その結果を新たに特徴量として追加