- Yonglong Tian, Yue Wang, Dilip Krishnan, Joshua B. Tenenbaum1, Phillip Isola, MIT CSAIL, Google Research
- https://arxiv.org/pdf/2003.11539.pdf
概要
few shot learningのためにmeta-learningの手法が提案されているが、特に凝ったことをしなくても普通にsupervised, unsupervisedでrepresentation learningをして、線形クラス分類機をつけるだけで十分行ける、と言う主張。
非常に面白いのは、エンコーダのdistillを繰り返すことで、representationを改善できるということ。この際distill先のネットワークは元のネットワークと全く同じアーキテクチャを用いる。新しいネットワークは、通常のラベルに対するクロスエントロピーロスと、distill元のエンコーダ関数とのKLロスの重み付き加算を最小化するように学習する。
この手法は、下の論文で提案されているらしい。
Tommaso Furlanello, Zachary Chase Lipton, Michael
Tschannen, Laurent Itti, and Anima Anandkumar. Bornagain neural networks. In ICML, 2018. 3, 4, 7
所感
- MAMLみたいなことをしなくてもOK、というのは結構強い主張では?
- self distill がそれほど有用だというのは今ひとつ直感的に納得行かないものがある。上の論文を読んでみよう。
