0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DINOv1の論文まとめ

Posted at

🧠「Emerging Properties in Self-Supervised Vision Transformers」(2021)

📘 概要

本記事では、Facebook AI Research(FAIR)による論文
「Emerging Properties in Self-Supervised Vision Transformers(DINO)」
の内容を章ごとに整理してまとめます。

DINOは、Vision Transformer(ViT)を自己教師あり学習で高精度に訓練できる
画期的な手法であり、「Self-distillation with No Labels」をコンセプトとしています。


🔹 1. Introduction

  • ViT(Vision Transformer)はNLPのTransformerを画像認識に応用したモデル。
    しかし初期はCNN(ResNetなど)に比べて明確な優位性を示せなかった。
  • NLPではBERT/GPTが**自己教師あり学習(Self-Supervised Learning)**で成功。
  • 著者らは「ViTもラベルなしで強力な特徴を学べるのでは?」と仮説を立てた。
  • 提案手法:DINO(self-distillation without labels)
    → 教師と生徒ネットワークが同構造で、ラベルなし自己蒸留を行う。

🔹 2. Related Work

Self-supervised Learning

  • SimCLR, MoCo, SwAVなどは**コントラスト学習(Contrastive Learning)**が中心。
  • BYOL(Bootstrap Your Own Latent)はコントラストを使わずに成功。
  • DINOはBYOLを発展させ、教師・生徒が同アーキテクチャで動く自己蒸留型SSLとして設計。

Knowledge Distillationとの関係

  • 従来の知識蒸留(KD)は「固定された教師」→「生徒」だった。
  • DINOは教師をEMA(Exponential Moving Average)で動的に更新
  • これにより**ラベルなし自己蒸留(self-distillation with no labels)**が成立。

🔹 3. Approach(手法)

3.1 Self-supervised Distillation Framework

  • 教師 ( g_{\theta_t} )、生徒 ( g_{\theta_s} ) が同構造(ViTまたはResNet)。

  • 教師出力 ( P_t )、生徒出力 ( P_s ) をクロスエントロピーで一致させる:

    H(P_t, P_s) = -\sum_i P_t(i) \log P_s(i)
    
  • 損失は「ラベル」ではなく教師の出力分布を模倣すること。

  • 学習データはmulti-crop augmentation(局所と大域の複数画像ビュー)。
    → 「local-to-global」対応を学習できる。


3.2 Teacher Network(教師更新)

  • 教師は**生徒のEMA(指数移動平均)**で更新:

    θ_t ← λθ_t + (1−λ)θ_s
    
  • これにより、常に生徒より安定した教師を維持できる。

  • この構造は「Polyak-Ruppert Averaging(動的アンサンブル)」と同等。

  • 結果として、教師が常に高性能 → 生徒がそれを追随して安定学習。


3.3 Network Architecture

  • Backbone: ViT(またはResNet)
  • Projection Head: 3層MLP(隠れ2048次元)+L2正規化+WeightNorm。
  • BatchNormは一切使用せず、完全BN-free。

3.4 崩壊防止(Avoiding Collapse)

  • 2種類の崩壊:

    1. 出力が全て同じ(均一化崩壊)
    2. 特定次元だけが支配的(偏り崩壊)
  • 対策:

    • Centering:平均を引く(2を防ぐが1を誘発)
    • Sharpening:softmax温度を下げる(1を防ぐが2を誘発)
      → 両方を併用してバランスを取る。

3.5 Evaluation Protocol

  • 評価方法:

    • Linear evaluation(特徴固定+線形層)
    • Fine-tuning(全層再学習)
    • k-NN分類(特徴空間での単純類似度)
  • 特にk-NNで高精度=特徴が良く整っている証拠。


🔹 4. Main Results(主な結果)

4.1 ImageNet比較

  • ResNet-50:SwAVやBYOLと同等。

  • ViT-Small

    • Linear: +3.5%
    • k-NN: +7.9%
      → ViTでDINOが圧倒的に優位。
  • ViT-Sでは k-NN ≒ Linear精度(74.5% vs 77.0%)

  • ViT-B/8では Linear 80.1%, k-NN 77.4% を達成。
    自己教師ありで教師ありを超える精度


4.2 Properties of DINO Features

① Nearest Neighbor Retrieval

  • DINO特徴は教師ありViTより画像検索(Oxford/Paris, GLDv2)で高精度
  • Copy Detection(Copydays)でもSOTA級のmAP。
    汎用的でロバストな特徴表現

② Semantic Layout Discovery

  • Self-Attention Mapが物体境界を自然に分離
  • ViT-B/8ではDAVIS動画セグメントで +9.1% 向上。
  • 教師ありViTよりもJaccard類似度(IoU)が高い。
    ラベルなしでセマンティック構造を自発学習

③ Transfer Learning

  • DINO事前学習のViTは教師ありより転移性能が高い
  • 特に分類・検出・セグメンテーションで改善。

🔹 5. Ablation Study(要素検証)

5.1 コンポーネントの重要性

要素 結果
Momentum Teacher 必須(ないと崩壊)
Multi-crop Augmentation 重要
Cross-entropy Loss 必要
Predictor 不要(BYOLと違う)
Patch Size 小さいほど高精度(/8が最良)

5.2 教師ネットワークの分析

  • 1エポック前教師や単純コピー教師より、**EMA教師(モメンタムエンコーダ)**が最良。
  • EMA教師は常に生徒より高精度で学習を導く。
  • Polyak-Ruppert平均による動的アンサンブルとして機能。

5.3 崩壊回避の仕組み

  • KLダイバージェンスを分解すると:

    • Centeringで支配崩壊を防止
    • Sharpeningで均一崩壊を防止
  • 両方を組み合わせると安定した学習が可能。
    (図7:Entropy & KLの推移)


5.4 計算コスト

設定 精度 時間 メモリ
2×224² (通常) 72.5% 46h 9.3GB
2×224²+10×96² (multi-crop) 74.6% 24h 15.4GB

+2%精度、2倍速、メモリ↑
→ マルチクロップは「local-to-global」学習に必須。

  • 小バッチ(128, 1GPU)でも動作可能。
  • 8バッチでも学習は進む(35%精度到達)。

🔹 6. Conclusion(結論)

  • DINOは「ラベルなしViT」を成立させた初の実証研究。

  • 得られた特徴は:

    1. k-NNでも高精度 → 検索系に強い
    2. セマンティック構造を自然に保持 → セグメンテーション応用可
  • 自己教師あり学習こそが「VisionのBERT」への鍵であると主張。

  • 今後は、未整理なWeb画像による大規模事前学習(=Foundation Model化)を目指す。


🚀 まとめ:DINOの意義

観点 内容
提案手法 Self-distillation(教師なし蒸留)
安定化機構 Centering + Sharpening
重要構成要素 Momentum Encoder + Multi-crop + CE Loss
成果 ViT-B/8で80.1%(ImageNet, 自己教師ありSOTA)
特徴の性質 意味構造と空間構造を同時に保持
意義 ViT版BERTへの道を開いた自己教師あり学習の礎石

📝 参考文献

  • Caron et al., “Emerging Properties in Self-Supervised Vision Transformers”, ICCV 2021.
  • BYOL: Grill et al., NeurIPS 2020.
  • SwAV: Caron et al., NeurIPS 2020.
  • DINOv2: Oquab et al., CVPR 2023.

💡 ポイントまとめ

DINOは単なる自己教師あり学習手法ではなく、
「ViTを真に開花させた自己蒸留の始祖」。
その思想は後のDINOv2・MAE・CLIPなど、
現在の**マルチモーダル基盤モデル(Foundation Models)**へとつながっている。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?