Kaggle - Quora Question Pairs1の12位解法2の調査記事です.
Author: CPMP
Title: Solution #12 overview
Kaggle Discussion: https://www.kaggle.com/c/quora-question-pairs/discussion/34342
特徴量
グラフ構造
- 質問をノード,質問1と2を辺としたグラフを構築3
ノードからの特徴量
- ノードの次数(Jared's frequency)
- 連結成分の数
- 双方向連結成分の数.???
- 隣接成分の平均
エッジからの特徴量
- グラフの辺の特徴量
- 共通の隣人の数
- 共通の近隣の数
生成パターン
- 質問が登場した順に並び替えたときの質問1と2の差の絶対値
推移律
- (q1とq2は重複)かつ(q2とq3は重複)ならば(q1とq3は重複)
- (q1とq2は重複)かつ(q2とq3は重複してない)ならば(q1とq3は重複してない)
NLP
分散表現
- カーネル上の特徴量(by Anokas4, Abhishek5, ChenglongCheng6など)
- 生の質問, テキストクリーニングした質問, ステミングした質問, 見出し語での質問
- 分散表現(Word2Vec, GloVe, fastText, dbow2vec, lsi)
- 質問ベクトルの差の10次元PCA
NLP関連の特徴量
- 質問1と2の長さをl1,l2として,min(l1,l2), max(l1,l2)
Stacking
- layer1で100のモデル(XGBoost, LightGBM, NN, gblinear, H20, sklearn, extra tree, logistic regression)
- 単一モデルは600以上の特徴量でのXGBoostでLB=0.131
- layer3はLogistic Regression
References
-
Kaggle, Quora Question Pairs, 2017. ↩
-
CPMP, Solution #12 overview, 2017. ↩
-
airxiechao, What are the magic features of winners?, 2017. ↩
-
anocak ↩
-
radder, Abhishek's features ↩
-
ChenglongCHen, Kaggle_CrowdFlower ↩