Momentum Contrast for Unsupervised Visual Representation Learning
Kaiming He Haoqi Fan Yuxin Wu Saining Xie Ross Girshick Facebook AI Research (FAIR)
- https://arxiv.org/abs/1911.05722
- 2019年
- dictionary look-up として対比学習を行う
- 移動平均エンコーダを利用
-
2つのエンコーダを使う。
-
左のエンコーダでクエリを、右のエンコーダで対比対象をエンコードする。右の方はミニバッチごとに古いものを押し出す形で入れ替えていく。こうすることで、バッチサイズと保持しておく対比対象の量を切り離す事ができる。
-
左のエンコーダは普通にロスでアップデートする(左)
-
右のエンコーダ(モーメンタムエンコーダ)は、左のエンコーダのパラメータの値を取り込む形で更新する。もとの値の割合を99.9%, 残りの0.1%を左のエンコーダの値ぐらいで混ぜる。つまり非常にゆっくりと左のエンコーダを追従していく。
-
これは、右のエンコーダが急激に変化すると、ディクショナリの中のキーのコンシステンシが保てなくなるから。実際に実験して、そのことを示している。混ぜる割合もかなり保守的にしないと行けないらしい。
Dimensionality Reduction by Learning an Invariant Mapping
Raia Hadsell, Sumit Chopra, Yann LeCun
CVPR2006
-
対比学習のベースとなった?論文 表現学習というよりは、次元削減の観点で書かれている。
-
RrLIM (Dimmensionality Reduction by Learning and Invariant Mapping) を提案
-
Data Augment で作ったものをsimilarとして、別のデータをdissimlarとする。similarを近づけるように、dissimilarを遠ざけるようにloss を与える。
-
バネモデルで直感的な説明をしている。
-
Siamese architectureにも言及している。何が違うんだろう。
を見てもほとんどおなじに見えるなあ。。
Learning a Similarity Metric Discriminatively, with Application to Face Verification
- 2005年の論文
- saimese architecture 。同じ人の写真と別人の写真を使ってネットワークを訓練。2005年にベースになるCNNがあったのか。。
- ネットワークの名前はシャム双生児からきてるんだけど、コンプライアンス的にそろそろやばい感じがするなあ。
Unsupervised Feature Learning via Non-Parametric Instance Discrimination
MoCoの論文からメモリバンクのコンテクストでrefer されている。2018年の論文
- インスタンスレベルのクラス分類をNCEをつかって行う。インスタンスのrepresentation を長さ128のベクタにしてL2正規化、すべてのサンプルが均等に分散するように学習する。
- 個々のインスタンスの特徴量をメモリバンクに保持
- 下流タスクはKNNでやる。128のベクタ表現
- Data Augmentation は使っていない。すべてのインスタンスを等価に扱っている。みにくいアヒルの子定理からするとうまく行かないはずだが、それなりに上手く行っているようにみえるのはなぜか。いや、失敗例を見るとかなりおかしなことにもなっているようだ。CNNを使っているので、その時点である程度のバイアスは入っているとも言えるのか。
-
NCEの解説
-
https://www.kdnuggets.com/2019/07/introduction-noise-contrastive-estimation.html
-
すごくわかりやすかった。もともとはWord2vec系の単語数が爆発的になるネットワークの最終段のsoftmaxが計算量的に無理なので、そこをサンプリングで置き換える技術らしい。やっていることは、ノイズ分布Qを仮定して、それで負例をサンプリングして対比ロスを計算すると。なるほど、こうつながるのか。。