@hamaoposted at 2021-09-09

データ分析におけるPseudoLabelingについて

Discussion

Closed

現在, signateのコンペに参加しているのですが, PseudoLabelingをする際に, public LBのスコアが良いものを学習データに加えています. そして、public LBのスコアが上がれば, 学習データに加えるものをスコアの良かった方のテストデータに置き換えて, 　PseudoLabelingを繰り返しています.すると, PseudoLabelingを繰り返せば繰り返すほどスコアはあがっているのですが, publicデータに対して過学習が起きていないか心配です.
signateに限らず, データ分析コンペにおいてPseudoLabelingをする際に, publicデータに対して過学習を起こすようなことは起こるのでしょうか? また, それを避ける方法を教えていただきたいです.
自分で考えている対策法は, テストデータのうちpublicに含まれていないものを訓練データに加えるというものですが, これは十分な対策になりますか? また, コンペにおいてどのようにpublicとprivateが分けられているかはどこで確認すればいいでしょうか?

0 likes

Are you sure you want to delete the question?

データ分析におけるPseudoLabelingについて

Your answer might help someone💌