LoginSignup
1
0

More than 5 years have passed since last update.

[Survey] Kaggle - Quora 4位解法まとめ

Last updated at Posted at 2017-09-11

Kaggle - Quora Question Pairs1の4位解法2の調査記事です.

Title: [4位] Overview of 4th-Place Solution
Author: HouJP
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34349
Code: https://github.com/HouJP/kaggle-quora-question-pairs

流れ

  1. 前処理
  2. 特徴抽出
  3. モデル構築
  4. 後処理

image.png
HouJP/kaggle-quora-question-pairs3より引用

前処理

  • Text-cleaning: 誤字脱字の修正, 記号の処理, 頭字語の復元など
  • Word-stemming: SnowballStemmer4,など
  • Shared-word-removing: 両方に共通して出現する単語の除去など

特徴抽出

  • 1400以上の特徴量
  • 統計: 共通する単語の比率,文章の長さ,単語の数など.
  • 自然言語処理: 構文木の解析,ネガティブな単語の数など
  • グラフ構造: PageRank, hits, 最短経路, クリークの大きさなど

モデル構築

  • ニューラルネット,XGBoost, LightGBM, LogisticRegression(単一モデルだとLB=0.122〜0.124が最良)
  • 140モデルのModel Stacking(LB上で0.007改善)

後処理

  • 訓練データとテストデータでデータの傾向が異なっていたので,重みを調整する必要があった.
  • クリークの大きさでデータを分割して重みを調整(この操作でLB上が0.001改善)

References

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0