3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

2019 Data Science Bowl 手法メモ

Posted at

上位陣の手法をメモとして残します。
特に自分の知らなかった 手法 にフォーカスします。
時系列データということもあって自然言語関連の手法が見られるようです。

1st place solution

  • GroupKFold を5回繰り返してスコア(qwk)が安定するか確認。結果安定しなかったのでweighted-rmse(?)を使用した

    →モノサシが適切かどうか検証が必要ということか。自分は何もやってなかったな。。
  • ダブルチェックのためにNestedCVを使用。GroupKFoldの結果に直観に反するような結果があり、自信がなかったので使用

    (NestedCV解説)

    →こんな手法があるんですね。しかしモノサシの検証が念入りですね。
  • null importance method で特徴量を20000→500に削減

    (null importance method解説(英語サイト))

    (null importance method解説(日本語サイト))

    →20000の抽出方法は追い切れてません。

    →特徴量の選定は人間よりもコンピュータに力業でさせるほうがよさそうですね。
  • adversarial-validationでデータの偏りがないことを確認。AUC=0.5が理想

    (adversarial-validation解説)

    →これは抽出した特徴量500に対して、学習用データとテスト用データで偏りがないかをadversarial-validationでチェックしたという意味でしょうか。で分類困難ということはAUC=0.5との意味かな。
  • trainingにはrmse lossを、validationにはweighted rmse lossを使用

    →以下の説明があるけど、理解できてない (**

For the weighted loss , the weight is the sample prob for each sample (We use full data, for the test part, we calculate the expectation of the sample prob as weight).

2nd place solution

  • Word2Vec を使ってるとのこと

    →内容が理解しきれずどうう使っているかはよくわからない
  • **相関関係?**の強い特徴量を削除

3rd place solution

  • Transformer Model を使用

    →TransformerとはGoogleが開発した自然言語処理の手法(参照)

    開設された図をみると各ゲームセッションを単語のように見なしてTransformerを適用しているように見えるが。。。各ゲームセッションの関連を表現できるモデルということでしょうか?

4th place solution

  • tf-idf を使用

    →tf-idfとは自然言語処理で使用される手法で各単語の重要度を示す手法。TFは使用頻度、IDFは希少性を示す(参照)

    イベント系列を単語とみなしてTF-IDFを適用した様子だが、TF-IDFによって何が得られ、それをどう予測に使ったかは?特徴量生成に使用?

##参考
上位者解法へのリンク
上位者解法へのリンク1(日本語)
上位者解法へのリンク2(日本語)

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?