自然言語処理
機械学習
Kaggle

[Survey] Kaggle - Quora 14位解法まとめ

More than 1 year has passed since last update.

Kaggle - Quora Question Pairs1の14位解法2の調査記事です.

Author: Wojtek Rosinski
Title: 14th Place Solution - Code
Kaggle Discussion: https://www.kaggle.com/c/quora-question-pairs/discussion/34549
Code: https://github.com/Wrosinski/Kaggle-Quora

特徴量

Data Encoding

  • Textacy3を用いたテキストクリーニング
  • 品詞解析
  • ステミング
  • NER Encoding

NLP

  • カーネル上の特徴量(by Abhishek4, SRK5 6, Jared Turkewitz7, the_1owl8, Mephistopheles9など)
  • LSIやLDA, tSVD
  • Word2Vec
  • Doc2Vec
  • 様々な距離や類似度
  • テキスト関連の特徴量
  • KNNを用いた特徴量

リーク情報

  • Jared Turkewitz's frequency features
  • NetworkX features

モデル

  • XGBoost & LightGBM
  • Decomposable Attention10(SpaCy11)
  • LSTM
  • MLP

Stacking

  • sklearn modelのアンサンブル
  • LightGBMでStacking
  • spacyの最小化関数を用いてアンサンブルに対する重みを算出

References