Kaggle - Quora Question Pairs1の2位解法2の調査記事です.
Author: Silogram
Title: Overview of 2nd-Place Solution
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34310
Summary
- 6つのLightGBM3と1つのニューラルネットのアンサンブル
- グラフ構造上の性質を用いたキャリブレーション(Jared(3位)手法4と類似)
- 特徴量の次元は数千(疎なN-gramベクトルを含む)
- 単一モデルでのLB上でのスコアは0.116〜0.117
- NLP処理で有用だったことは多くの異なる方法でのテキスト処理 (e.g. 小文字への変更と変更なし, 異なる方法で変換された句読点, ストップワード除去と未除去, ステミング処理ありとなし等)
コンテスト上の問題点
- 作問方法に問題があったため,質問ペアでできるグラフ構造上の問題が重要だった.
- インド関連の質問が多くてTFIDFやTFに影響があった(地域の影響はない方が良いのでは?という話)
- ラベルの不備が目立った
疎なN-gramについて
- バイナリtfを使用.上位2000個の1-gramと2-gramを除去
- 質問1と2のベクトルを合算して,各N-gramに3つのラベルに変換(0:どれにもない.1:片方のみ存在,2:両方に存在)
References
-
Kaggle, Quora Question Pairs, 2017. ↩
-
Silogram, Overview of 2nd-Place Solution ↩
-
Jared Turkewitz, Overview Of 3rd Place Solution ↩