DINOv1の論文まとめ

Posted at 2025-11-09

🧠「Emerging Properties in Self-Supervised Vision Transformers」（2021）

📘 概要

本記事では、Facebook AI Research（FAIR）による論文
「Emerging Properties in Self-Supervised Vision Transformers（DINO）」
の内容を章ごとに整理してまとめます。

DINOは、Vision Transformer（ViT）を自己教師あり学習で高精度に訓練できる
画期的な手法であり、「Self-distillation with No Labels」をコンセプトとしています。

🔹 1. Introduction

ViT（Vision Transformer）はNLPのTransformerを画像認識に応用したモデル。
しかし初期はCNN（ResNetなど）に比べて明確な優位性を示せなかった。
NLPではBERT/GPTが**自己教師あり学習（Self-Supervised Learning）**で成功。
著者らは「ViTもラベルなしで強力な特徴を学べるのでは？」と仮説を立てた。
提案手法：DINO（self-distillation without labels）
→ 教師と生徒ネットワークが同構造で、ラベルなし自己蒸留を行う。

🔹 2. Related Work

Self-supervised Learning

SimCLR, MoCo, SwAVなどは**コントラスト学習（Contrastive Learning）**が中心。
BYOL（Bootstrap Your Own Latent）はコントラストを使わずに成功。
DINOはBYOLを発展させ、教師・生徒が同アーキテクチャで動く自己蒸留型SSLとして設計。

Knowledge Distillationとの関係

従来の知識蒸留（KD）は「固定された教師」→「生徒」だった。
DINOは教師をEMA（Exponential Moving Average）で動的に更新。
これにより**ラベルなし自己蒸留（self-distillation with no labels）**が成立。

🔹 3. Approach（手法）

3.1 Self-supervised Distillation Framework

教師 ( g_{\theta_t} )、生徒 ( g_{\theta_s} ) が同構造（ViTまたはResNet）。
教師出力 ( P_t )、生徒出力 ( P_s ) をクロスエントロピーで一致させる：
```
H(P_t, P_s) = -\sum_i P_t(i) \log P_s(i)
```
損失は「ラベル」ではなく教師の出力分布を模倣すること。
学習データはmulti-crop augmentation（局所と大域の複数画像ビュー）。
→ 「local-to-global」対応を学習できる。

3.2 Teacher Network（教師更新）

教師は**生徒のEMA（指数移動平均）**で更新：
```
θ_t ← λθ_t + (1−λ)θ_s
```
これにより、常に生徒より安定した教師を維持できる。
この構造は「Polyak-Ruppert Averaging（動的アンサンブル）」と同等。
結果として、教師が常に高性能 → 生徒がそれを追随して安定学習。

3.3 Network Architecture

Backbone: ViT（またはResNet）
Projection Head: 3層MLP（隠れ2048次元）＋L2正規化＋WeightNorm。
BatchNormは一切使用せず、完全BN-free。

3.4 崩壊防止（Avoiding Collapse）

2種類の崩壊：
1. 出力が全て同じ（均一化崩壊）
2. 特定次元だけが支配的（偏り崩壊）
対策：
- Centering：平均を引く（2を防ぐが1を誘発）
- Sharpening：softmax温度を下げる（1を防ぐが2を誘発）
  → 両方を併用してバランスを取る。

3.5 Evaluation Protocol

評価方法：
- Linear evaluation（特徴固定＋線形層）
- Fine-tuning（全層再学習）
- k-NN分類（特徴空間での単純類似度）
特にk-NNで高精度＝特徴が良く整っている証拠。

🔹 4. Main Results（主な結果）

4.1 ImageNet比較

ResNet-50：SwAVやBYOLと同等。
ViT-Small：
- Linear: +3.5%
- k-NN: +7.9%
  → ViTでDINOが圧倒的に優位。
ViT-Sでは k-NN ≒ Linear精度（74.5% vs 77.0%）。
ViT-B/8では Linear 80.1%, k-NN 77.4% を達成。
→ 自己教師ありで教師ありを超える精度。

4.2 Properties of DINO Features

① Nearest Neighbor Retrieval

DINO特徴は教師ありViTより画像検索（Oxford/Paris, GLDv2）で高精度。
Copy Detection（Copydays）でもSOTA級のmAP。
→ 汎用的でロバストな特徴表現。

② Semantic Layout Discovery

Self-Attention Mapが物体境界を自然に分離。
ViT-B/8ではDAVIS動画セグメントで +9.1% 向上。
教師ありViTよりもJaccard類似度（IoU）が高い。
→ ラベルなしでセマンティック構造を自発学習。

③ Transfer Learning

DINO事前学習のViTは教師ありより転移性能が高い。
特に分類・検出・セグメンテーションで改善。

🔹 5. Ablation Study（要素検証）

5.1 コンポーネントの重要性

要素	結果
Momentum Teacher	必須（ないと崩壊）
Multi-crop Augmentation	重要
Cross-entropy Loss	必要
Predictor	不要（BYOLと違う）
Patch Size	小さいほど高精度（/8が最良）

5.2 教師ネットワークの分析

1エポック前教師や単純コピー教師より、**EMA教師（モメンタムエンコーダ）**が最良。
EMA教師は常に生徒より高精度で学習を導く。
→ Polyak-Ruppert平均による動的アンサンブルとして機能。

5.3 崩壊回避の仕組み

KLダイバージェンスを分解すると：
- Centeringで支配崩壊を防止
- Sharpeningで均一崩壊を防止
両方を組み合わせると安定した学習が可能。
（図7：Entropy & KLの推移）

5.4 計算コスト

設定	精度	時間	メモリ
2×224² (通常)	72.5%	46h	9.3GB
2×224²+10×96² (multi-crop)	74.6%	24h	15.4GB

→ +2%精度、2倍速、メモリ↑
→ マルチクロップは「local-to-global」学習に必須。

小バッチ(128, 1GPU)でも動作可能。
8バッチでも学習は進む（35%精度到達）。

🔹 6. Conclusion（結論）

DINOは「ラベルなしViT」を成立させた初の実証研究。
得られた特徴は：
1. k-NNでも高精度 → 検索系に強い
2. セマンティック構造を自然に保持 → セグメンテーション応用可
自己教師あり学習こそが「VisionのBERT」への鍵であると主張。
今後は、未整理なWeb画像による大規模事前学習（＝Foundation Model化）を目指す。

🚀 まとめ：DINOの意義

観点	内容
提案手法	Self-distillation（教師なし蒸留）
安定化機構	Centering + Sharpening
重要構成要素	Momentum Encoder + Multi-crop + CE Loss
成果	ViT-B/8で80.1%（ImageNet, 自己教師ありSOTA）
特徴の性質	意味構造と空間構造を同時に保持
意義	ViT版BERTへの道を開いた自己教師あり学習の礎石

📝 参考文献

Caron et al., “Emerging Properties in Self-Supervised Vision Transformers”, ICCV 2021.
BYOL: Grill et al., NeurIPS 2020.
SwAV: Caron et al., NeurIPS 2020.
DINOv2: Oquab et al., CVPR 2023.

💡 ポイントまとめ

DINOは単なる自己教師あり学習手法ではなく、
「ViTを真に開花させた自己蒸留の始祖」。
その思想は後のDINOv2・MAE・CLIPなど、
現在の**マルチモーダル基盤モデル（Foundation Models）**へとつながっている。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up