Kaggle - Quora Question Pairs1の23位解法2の調査記事です.
Author: AhmetErdem
Title: 24th Place Solution Repo
Kaggle https://www.kaggle.com/c/quora-question-pairs/discussion/34534
Code: https://github.com/aerdem4/kaggle-quora-dup
サマリ
- コードがシンプル
- 全ての特徴量は質問の順に依存しないようにした.(例: 質問1と2の頻度を特徴量とする代わりに,質問順に依存しないmin_frequenceyとmax_frequenceyとした)
- 特徴量の値の範囲を必要に応じて制限した.(例: 過学習を防ぐため,近傍の数の上限を5とした)
- LSTMによる特徴量も質問1と2の順に依存しないよう同じLSTMを利用.
- LSTMの出力値も差や和の平方を取ることで,順序間の依存をなくした.
- 出現頻度の低い単語はLSTMの前にプレースホルダーに置き換えた.
- ニューラルネットワークのサイズはそんなに大きくなく,ドロップアウトとガウシアンノイズを入れてる.
- 最後に様々なニューラルネットを合算して最終予測結果を作成.
- 検証データの重みについてはフォーラム3を参照
References
-
Kaggle, Quora Question Pairs, 2017. ↩
-
AhmetErdem, 24th Place Solution Repo, 2017. ↩
-
sweezyjeezy, Statistically valid way to convert training predictions to test predictions ↩