LoginSignup
0
0

More than 5 years have passed since last update.

[Survey] Kaggle - Quora 2位解法まとめ

Last updated at Posted at 2017-09-09

Kaggle - Quora Question Pairs1の2位解法2の調査記事です.

Author: Silogram
Title: Overview of 2nd-Place Solution
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34310

Summary

  • 6つのLightGBM3と1つのニューラルネットのアンサンブル
  • グラフ構造上の性質を用いたキャリブレーション(Jared(3位)手法4と類似)
  • 特徴量の次元は数千(疎なN-gramベクトルを含む)
  • 単一モデルでのLB上でのスコアは0.116〜0.117
  • NLP処理で有用だったことは多くの異なる方法でのテキスト処理 (e.g. 小文字への変更と変更なし, 異なる方法で変換された句読点, ストップワード除去と未除去, ステミング処理ありとなし等)

コンテスト上の問題点

  • 作問方法に問題があったため,質問ペアでできるグラフ構造上の問題が重要だった.
  • インド関連の質問が多くてTFIDFやTFに影響があった(地域の影響はない方が良いのでは?という話)
  • ラベルの不備が目立った

疎なN-gramについて

  • バイナリtfを使用.上位2000個の1-gramと2-gramを除去
  • 質問1と2のベクトルを合算して,各N-gramに3つのラベルに変換(0:どれにもない.1:片方のみ存在,2:両方に存在)

References


  1. Kaggle, Quora Question Pairs, 2017. 

  2. Silogram, Overview of 2nd-Place Solution 

  3. Microsoft, LightGBM, 2017. 

  4. Jared Turkewitz, Overview Of 3rd Place Solution 

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0