上位陣の手法をメモとして残します。
特に自分の知らなかった 手法 にフォーカスします。
時系列データということもあって自然言語関連の手法が見られるようです。
1st place solution
-
GroupKFold を5回繰り返してスコア(qwk)が安定するか確認。結果安定しなかったのでweighted-rmse(?)を使用した
→モノサシが適切かどうか検証が必要ということか。自分は何もやってなかったな。。 -
ダブルチェックのためにNestedCVを使用。GroupKFoldの結果に直観に反するような結果があり、自信がなかったので使用
(NestedCV解説)
→こんな手法があるんですね。しかしモノサシの検証が念入りですね。 -
null importance method で特徴量を20000→500に削減
(null importance method解説(英語サイト))
(null importance method解説(日本語サイト))
→20000の抽出方法は追い切れてません。
→特徴量の選定は人間よりもコンピュータに力業でさせるほうがよさそうですね。 -
adversarial-validationでデータの偏りがないことを確認。AUC=0.5が理想
(adversarial-validation解説)
→これは抽出した特徴量500に対して、学習用データとテスト用データで偏りがないかをadversarial-validationでチェックしたという意味でしょうか。で分類困難ということはAUC=0.5との意味かな。 -
trainingにはrmse lossを、validationにはweighted rmse lossを使用
→以下の説明があるけど、理解できてない (**
For the weighted loss , the weight is the sample prob for each sample (We use full data, for the test part, we calculate the expectation of the sample prob as weight).
2nd place solution
-
Word2Vec を使ってるとのこと
→内容が理解しきれずどうう使っているかはよくわからない - **相関関係?**の強い特徴量を削除
3rd place solution
-
Transformer Model を使用
→TransformerとはGoogleが開発した自然言語処理の手法(参照)
開設された図をみると各ゲームセッションを単語のように見なしてTransformerを適用しているように見えるが。。。各ゲームセッションの関連を表現できるモデルということでしょうか?
4th place solution
-
tf-idf を使用
→tf-idfとは自然言語処理で使用される手法で各単語の重要度を示す手法。TFは使用頻度、IDFは希少性を示す(参照)
イベント系列を単語とみなしてTF-IDFを適用した様子だが、TF-IDFによって何が得られ、それをどう予測に使ったかは?特徴量生成に使用?