Kaggle - Quora Question Pairs1の3位解法2の調査記事です.
[3位] Overview Of 3rd Place Solution
Author: Jared Turkewitz
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34288
アーキテクチャ
- ニューラルネット,LightGBM, XGBoostを利用
- Model Stackingの1層目は1300の特徴量
- LightGBMを利用(XGboostの5倍高速,やや正確さは落ちる)
- 15個のモデルのスタッキング
- 単一モデルだとXGBoostが最良(CV=0.185)
自然言語処理上の特徴量
- 自然言語処理上の特徴量: 単語の一致度,類似する単語の一致度など
- TI-IDFとLDAの距離
- 単語の共起性(自己相互情報量3)4
- 単語の一致数
- ファジィ単語マッチング尺度(編集距離,文字N-gram距離)
- LDA
- Word2Vec距離
- 品詞と固有表現による特徴5
- mirror features
- など
グラフ構造上の特徴量
- 共通の単語数,頻度,質問1だけの質問頻度,質問2だけの質問頻度など
- Page Rank
- 次数
- 最短パス
- クリークサイズ
ニューラルネット
- 双方向のLSTM
- 分散表現
- 学習済みGloVe
- part of speech embedding(品詞)
- named entity embedding(固有表現)
- dependency parse embedding(依存関係)6
- siameseネットワーク7
- Attention部分
- Softmax Matching
- Maxpool Matching
その他の工夫
- 質問頻度で予測を選択的に調整
References
-
Kaggle, Quora Question Pairs, 2017. ↩
-
Turkewitz, Overview Of 3rd Place Solution, 2017. ↩
-
自然言語処理における自己相互情報量 (Pointwise Mutual Information, PMI), 2016. ↩
-
ktr_skmt, 二つの文字列の類似度, 2011. ↩
-
Tkachenko, Named Entity Recognition: Exploring Features, 2012. ↩
-
Dependency Parsing, 2017. ↩
-
Koch, Siamese Neural Networks for One-Shot Image Recognition, 2015. ↩