データ分析におけるPseudoLabelingについて
現在, signateのコンペに参加しているのですが, PseudoLabelingをする際に, public LBのスコアが良いものを学習データに加えています. そして、public LBのスコアが上がれば, 学習データに加えるものをスコアの良かった方のテストデータに置き換えて, PseudoLabelingを繰り返しています.すると, PseudoLabelingを繰り返せば繰り返すほどスコアはあがっているのですが, publicデータに対して過学習が起きていないか心配です.
signateに限らず, データ分析コンペにおいてPseudoLabelingをする際に, publicデータに対して過学習を起こすようなことは起こるのでしょうか? また, それを避ける方法を教えていただきたいです.
自分で考えている対策法は, テストデータのうちpublicに含まれていないものを訓練データに加えるというものですが, これは十分な対策になりますか? また, コンペにおいてどのようにpublicとprivateが分けられているかはどこで確認すればいいでしょうか?
0