3

More than 5 years have passed since last update.

[Survey] Kaggle - Quora 3位解法まとめ

Last updated at 2017-09-11Posted at 2017-09-10

Kaggle - Quora Question Pairs¹の3位解法²の調査記事です．

[3位] Overview Of 3rd Place Solution
Author: Jared Turkewitz
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34288

アーキテクチャ

ニューラルネット，LightGBM, XGBoostを利用
Model Stackingの1層目は1300の特徴量
LightGBMを利用(XGboostの5倍高速，やや正確さは落ちる)
15個のモデルのスタッキング
単一モデルだとXGBoostが最良(CV=0.185)

自然言語処理上の特徴量

自然言語処理上の特徴量: 単語の一致度，類似する単語の一致度など
TI-IDFとLDAの距離
単語の共起性(自己相互情報量³)⁴
単語の一致数
ファジィ単語マッチング尺度(編集距離，文字N-gram距離)
LDA
Word2Vec距離
品詞と固有表現による特徴⁵
mirror features
など

グラフ構造上の特徴量

共通の単語数，頻度，質問1だけの質問頻度，質問2だけの質問頻度など
Page Rank
次数
最短パス
クリークサイズ

ニューラルネット

双方向のLSTM
分散表現
- 学習済みGloVe
- part of speech embedding(品詞)
- named entity embedding(固有表現)
- dependency parse embedding(依存関係)⁶
siameseネットワーク⁷
Attention部分
- Softmax Matching
- Maxpool Matching

その他の工夫

質問頻度で予測を選択的に調整

References

Kaggle, Quora Question Pairs, 2017. ↩
Turkewitz, Overview Of 3rd Place Solution, 2017. ↩
自然言語処理における自己相互情報量 (Pointwise Mutual Information, PMI), 2016. ↩
ktr_skmt, 二つの文字列の類似度, 2011. ↩
Tkachenko, Named Entity Recognition: Exploring Features, 2012. ↩
Dependency Parsing, 2017. ↩
Koch, Siamese Neural Networks for One-Shot Image Recognition, 2015. ↩

3

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

3