LoginSignup
1
3

More than 5 years have passed since last update.

[Survey] Kaggle - Quora 3位解法まとめ

Last updated at Posted at 2017-09-10

Kaggle - Quora Question Pairs1の3位解法2の調査記事です.

[3位] Overview Of 3rd Place Solution
Author: Jared Turkewitz
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34288

アーキテクチャ

  • ニューラルネット,LightGBM, XGBoostを利用
  • Model Stackingの1層目は1300の特徴量
  • LightGBMを利用(XGboostの5倍高速,やや正確さは落ちる)
  • 15個のモデルのスタッキング
  • 単一モデルだとXGBoostが最良(CV=0.185)

自然言語処理上の特徴量

  • 自然言語処理上の特徴量: 単語の一致度,類似する単語の一致度など
  • TI-IDFとLDAの距離
  • 単語の共起性(自己相互情報量3)4
  • 単語の一致数
  • ファジィ単語マッチング尺度(編集距離,文字N-gram距離)
  • LDA
  • Word2Vec距離
  • 品詞と固有表現による特徴5
  • mirror features
  • など

グラフ構造上の特徴量

  • 共通の単語数,頻度,質問1だけの質問頻度,質問2だけの質問頻度など
  • Page Rank
  • 次数
  • 最短パス
  • クリークサイズ

ニューラルネット

  • 双方向のLSTM
  • 分散表現
    • 学習済みGloVe
    • part of speech embedding(品詞)
    • named entity embedding(固有表現)
    • dependency parse embedding(依存関係)6
  • siameseネットワーク7
  • Attention部分
    • Softmax Matching
    • Maxpool Matching

その他の工夫

  • 質問頻度で予測を選択的に調整

References

1
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
3