Kaggle - Quora Question Pairs1の14位解法2の調査記事です.
Author: Wojtek Rosinski
Title: 14th Place Solution - Code
Kaggle Discussion: https://www.kaggle.com/c/quora-question-pairs/discussion/34549
Code: https://github.com/Wrosinski/Kaggle-Quora
特徴量
Data Encoding
- Textacy3を用いたテキストクリーニング
- 品詞解析
- ステミング
- NER Encoding
NLP
- カーネル上の特徴量(by Abhishek4, SRK5 6, Jared Turkewitz7, the_1owl8, Mephistopheles9など)
- LSIやLDA, tSVD
- Word2Vec
- Doc2Vec
- 様々な距離や類似度
- テキスト関連の特徴量
- KNNを用いた特徴量
リーク情報
- Jared Turkewitz's frequency features
- NetworkX features
モデル
Stacking
- sklearn modelのアンサンブル
- LightGBMでStacking
- spacyの最小化関数を用いてアンサンブルに対する重みを算出
References
-
Kaggle, Quora Question Pairs, 2017. ↩
-
Rosinski, 14th Place Solution - Code ↩
-
radder, Abhishek's features ↩
-
Jared Turkewitz, Magic Features (0.03 gain) ↩
-
the_1owl, Matching ¿Que? for Quora - End to End 0.33719 PB ↩
-
Mephistopheles, 0.29936 solution ↩
-
Parikh et al., A Decomposable Attention Model for Natural Language Inference, 2016. ↩
-
spacy, https://github.com/explosion/spaCy/tree/master/examples/keras_parikh_entailment ↩