hamao
@hamao

Are you sure you want to delete the question?

Leaving a resolved question undeleted may help others!

データ分析におけるPseudoLabelingについて

現在, signateのコンペに参加しているのですが, PseudoLabelingをする際に, public LBのスコアが良いものを学習データに加えています. そして、public LBのスコアが上がれば, 学習データに加えるものをスコアの良かった方のテストデータに置き換えて,  PseudoLabelingを繰り返しています.すると, PseudoLabelingを繰り返せば繰り返すほどスコアはあがっているのですが, publicデータに対して過学習が起きていないか心配です.
signateに限らず, データ分析コンペにおいてPseudoLabelingをする際に, publicデータに対して過学習を起こすようなことは起こるのでしょうか? また, それを避ける方法を教えていただきたいです.
自分で考えている対策法は, テストデータのうちpublicに含まれていないものを訓練データに加えるというものですが, これは十分な対策になりますか? また, コンペにおいてどのようにpublicとprivateが分けられているかはどこで確認すればいいでしょうか?

0

Your answer might help someone💌