LoginSignup
1
1

More than 5 years have passed since last update.

[Survey] Kaggle - Quora 14位解法まとめ

Posted at

Kaggle - Quora Question Pairs1の14位解法2の調査記事です.

Author: Wojtek Rosinski
Title: 14th Place Solution - Code
Kaggle Discussion: https://www.kaggle.com/c/quora-question-pairs/discussion/34549
Code: https://github.com/Wrosinski/Kaggle-Quora

特徴量

Data Encoding

  • Textacy3を用いたテキストクリーニング
  • 品詞解析
  • ステミング
  • NER Encoding

NLP

  • カーネル上の特徴量(by Abhishek4, SRK5 6, Jared Turkewitz7, the_1owl8, Mephistopheles9など)
  • LSIやLDA, tSVD
  • Word2Vec
  • Doc2Vec
  • 様々な距離や類似度
  • テキスト関連の特徴量
  • KNNを用いた特徴量

リーク情報

  • Jared Turkewitz's frequency features
  • NetworkX features

モデル

  • XGBoost & LightGBM
  • Decomposable Attention10(SpaCy11)
  • LSTM
  • MLP

Stacking

  • sklearn modelのアンサンブル
  • LightGBMでStacking
  • spacyの最小化関数を用いてアンサンブルに対する重みを算出

References

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1