Kaggle - Quora Question Pairs1の4位解法2の調査記事です.
Title: [4位] Overview of 4th-Place Solution
Author: HouJP
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34349
Code: https://github.com/HouJP/kaggle-quora-question-pairs
流れ
HouJP/kaggle-quora-question-pairs3より引用
前処理
- Text-cleaning: 誤字脱字の修正, 記号の処理, 頭字語の復元など
- Word-stemming: SnowballStemmer4,など
- Shared-word-removing: 両方に共通して出現する単語の除去など
特徴抽出
- 1400以上の特徴量
- 統計: 共通する単語の比率,文章の長さ,単語の数など.
- 自然言語処理: 構文木の解析,ネガティブな単語の数など
- グラフ構造: PageRank, hits, 最短経路, クリークの大きさなど
モデル構築
- ニューラルネット,XGBoost, LightGBM, LogisticRegression(単一モデルだとLB=0.122〜0.124が最良)
- 140モデルのModel Stacking(LB上で0.007改善)
後処理
- 訓練データとテストデータでデータの傾向が異なっていたので,重みを調整する必要があった.
- クリークの大きさでデータを分割して重みを調整(この操作でLB上が0.001改善)
References
-
Kaggle, Quora Question Pairs, 2017. ↩
-
Turkewitz, Overview of 4th-Place Solution, 2017. ↩
-
HouJP, kaggle-quora-question-pairs, 2017. ↩
-
shibukawa, Snowball stemming library collection for Python, 2013. ↩