DINOv2: Learning Robust Visual Features without Supervision (Meta AI Research, 2023)
3行要約
- DINOv2は、大規模なキュレーション済みデータと教師なし学習により、汎用性が高く頑健な視覚特徴を学習する新しい手法です。
- 既存の自己教師あり学習手法を改良し、効率的なスケーリング技術とモデル蒸留を組み合わせることで、多様な画像タスクに対応可能な特徴抽出器を実現しました。
- DINOv2で学習した特徴は、ファインチューニングなしで画像およびピクセルレベルの様々なベンチマークにおいて、最先端の自己教師ありモデルを大幅に上回り、弱教師ありモデルに匹敵する性能を示します。
DINOv2: 教師なしでロバストなVisual Featureを学習する
はじめに
近年、自然言語処理(NLP)分野では、大量のデータで事前学習されたTransformerベースのモデルが、様々な下流タスクにおいて、ファインチューニングなし(ゼロショットや少数ショット学習)でも高い性能を発揮するというパラダイムシフトが起こっています。これは、基盤モデル(Foundation Model)の概念を確立させました。DINOv2の研究は、この成功をコンピュータビジョン分野でも実現することを目指しています。画像データから、特定のタスクに特化しない、汎用的なVisual Feature(視覚特徴量)を学習する「Foundation Model for Vision」を開発し、様々な画像認識タスクでファインチューニングなしに利用できる特徴量を提供することを目標としています。
従来の教師あり学習では、大量のアノテーション付きデータが必要であり、タスクごとにモデルを訓練し直す必要がありました。一方、自己教師あり学習(Self-Supervised Learning, SSL)は、アノテーションなしの生データから学習できるため、スケールアップが容易で、画像が本来持つピクセルレベルの詳細情報も学習できる可能性があります。本論文は、既存のSSL手法を大規模データ・大規模モデルに適用し、性能を最大化するための技術的な改良と、高品質なデータセット構築手法を提案しています。
提案手法の処理の流れ
DINOv2の学習プロセスは、主に「データ処理パイプライン」と「自己教師あり事前学習フレームワーク」、「効率的な実装とモデル蒸留」から構成されます。
-
データ処理パイプライン:
汎用的な特徴量を学習するには、多様で高品質なデータが不可欠です。本研究では、大規模な非キュレーション済みデータソースから、自動的に多様かつキュレーションされたデータセット「LVD-142M」(Large-scale high-quality Vision Dataset - 142 Million images)を構築するパイプラインを提案しています(図3参照)。

このパイプラインは以下のステップで行われます。
- 既存のキュレーション済みデータセット(ImageNet-22kなど、Table 15参照)と、ウェブクロール等で収集した大規模な非キュレーション済みデータソースを用意します。
- これらの画像を、教師なしで事前学習されたモデルを用いて特徴埋め込みに変換します。
- 非キュレーション済みデータソースに対し、特徴埋め込み間の類似度(コサイン類似度)に基づいて、ほぼ同一の画像を排除するDeduplication処理を行います(Table 15の「Uncurated data」の減少はここでの処理)。また、評価ベンチマークのテストセットや検証セットとの重複も厳密に排除します。
- キュレーション済みデータセットの画像をクエリとして、非キュレーション済みデータソースから視覚的に類似した画像を検索(Retrieval)し、データセットを拡張します。検索は、クラスタリングを用いる方法や、各クエリ画像の最近傍を一定数取得する方法で行います。
この手法の利点は、テキスト情報や手動アノテーションに依存せず、視覚的な類似性のみで関連性の高い画像を収集できる点です。これにより、多様なドメイン(ImageNetだけでなく、細粒度分類、セグメンテーション、深度推定、インスタンス認識など)のデータを含む大規模データセットを効率的に構築できます(Table 15参照)。
-
自己教師あり事前学習フレームワーク:
DINOv2は、DINO (Caron et al., 2021)とiBOT (Zhou et al., 2022a)を組み合わせたDiscriminative SSL手法を基盤とします。StudentネットワークとTeacherネットワーク(Studentネットワークのパラメータの指数移動平均 (EMA) として更新)を用い、異なるビューから得られた特徴間の一貫性を学習します。具体的には、以下の要素を取り入れています。- Image-level objective: 異なる拡大・変形を施した同じ画像のグローバルビューから抽出したクラストークン特徴量に対し、StudentとTeacherの出力分布(Softmax後)間のCross-Entropy損失を計算します ($L_{DINO}$)。
- Patch-level objective: Studentネットワークにマスクを施したパッチを含む画像を入力し、マスクされたパッチ位置のStudentの出力トークンと、マスクされていないTeacherネットワークの対応パッチの出力トークン間でCross-Entropy損失を計算します ($L_{iBOT}$)。
- ヘッドの分離: DINOとiBOTで異なる予測ヘッド(MLP)を使用することで、大規模訓練での性能を向上させます。
- Sinkhorn-Knopp Centering: Teacherの出力分布をバッチ単位でセンタリングし、モード崩壊を防ぎます (Caron et al., 2020)。
-
KoLeo Regularizer: 特徴空間上での出力の多様性を促進する正則化項です。バッチ内の各特徴ベクトルと、その最も近い他のベクトルとの距離の対数の平均を最小化します。
$$ L_{koleo} = - \frac{1}{n} \sum_{i=1}^{n} \log(d_{n,i}) $$
ここで、$n$はバッチサイズ、$x_i$は$i$番目の特徴ベクトル、$d_{n,i} = \min_{j \neq i} |x_i - x_j|_2$は$x_i$以外のベクトルとの最小ユークリッド距離です。これにより、特徴量が狭い領域に集中することを防ぎ、広がりを持たせます。 - 高解像度訓練: 事前学習の大部分は標準解像度(224x224など)で行いますが、最後に短時間(例えば625kイテレーション中最後の10kイテレーション)高解像度(例えば518x518)で訓練を行います。これにより、ピクセルレベルのタスクで特に重要となる、高解像度での特徴量の質を計算コストを抑えつつ向上させます(図6参照)。
-
効率的な実装とモデル蒸留:
ViTモデルの訓練を大規模データセットで効率的に行うために、様々な最適化技術を導入しています。- FlashAttention: Attention計算のメモリ効率と速度を改善しました。
- Sequence Packing: 異なる解像度の画像パッチシーケンスを効率的にバッチ処理するNLP由来の手法を応用しました。
- Efficient Stochastic Depth: ドロップアウトされたResidual接続の計算をスキップすることで、計算量とメモリ使用量を削減します。
-
PyTorch FSDP (Fully-Sharded Data Parallel): モデルパラメータ、勾配、Optimizer状態を複数GPUに分散させることで、GPUあたりのメモリ使用量を劇的に削減し、大規模モデルの訓練を可能にしました。また、混合精度訓練と組み合わせることで、GPU間の通信コストも削減しています。
これらの技術により、iBOTの実装と比較して訓練速度が約2倍になり、メモリ使用量が約1/3に削減されました。 - モデル蒸留: 最大のViT-g/14モデル(10億パラメータ)をFrozen Teacherとして使用し、より小さなViTモデル(ViT-S/B/L)を訓練します。SSLと同じ目的関数を用いますが、TeacherモデルはFrozenです。これにより、小さなモデルでも最大のモデルの性能を継承し、スクラッチから訓練するよりも優れた性能を達成しています(図5参照)。
実験結果と関連研究との比較
DINOv2は、様々なコンピュータビジョンタスクで評価され、既存のSSL手法やWSL手法との比較が行われています。評価の多くは、事前学習済みFeatureを固定(Frozen)し、その上にシンプルな線形分類器やデコーダーを訓練するプロトコルで行われています。
- 画像分類: ImageNet-1kでの線形評価(Table 4)において、DINOv2 (ViT-g/14) は既存のSSL手法(iBOTなど)を大きく上回り、OpenCLIPなどのWSLモデルに匹敵する性能を示しました。さらに、ImageNet-ReaLやImageNet-V2といったドメインシフトを含むデータセットでの評価(Table 4)や、ImageNet-A/R/Sketchでの頑健性評価(Table 6)では、他のSSL手法だけでなく、多くのWSLモデルよりも優れた汎化性能と頑健性を示しました。これは、多様なデータでの教師なし学習が、Out-of-Distribution (OOD) 性能に有効であることを示しています。
- その他の分類タスク: iNaturalistのような細粒度分類やPlaces205のようなシーン分類(Table 7)において、DINOv2はOpenCLIPを大きく上回る性能を示しました。また、静止画の特徴量であるにも関わらず、UCF-101やKinetics-400、Something-Something v2といったビデオ行動認識タスクでも、SSL手法としてSOTAを達成し、WSL手法にも匹敵する性能を示しました(Table 7)。これは、DINOv2の特徴量が、物体の詳細や人間と物体の相互作用といった、高レベルな情報を捉えていることを示唆しています。
-
インスタンス認識: Oxford BuildingsやParis Buildings、Met Museum、AmsterTimeといったインスタンスレベルの画像検索タスク(Table 9)において、DINOv2はSSL、WSLの両方のベースラインを大きく上回る性能を示しました。これは、DINOv2の特徴量が、個々のインスタンスを識別するのに必要な詳細な情報を保持していることを示しており、タスクの粒度に関わらず汎用的に機能することを示しています。
-
高密度予測タスク: ADE20KやCityScapes、Pascal VOCといったセマンティックセグメンテーション(Table 10)や、NYUd、KITTI、SUN RGB-Dへの単眼深度推定(Table 11)といった、ピクセルレベルの予測タスクでも高い性能を示しました。特に深度推定では、他のSSL/WSL手法を大きく凌駕し、最新手法に匹敵する結果を得ました。これは、マスクパッチ予測を含む学習や高解像度訓練が、ローカルで詳細な特徴量学習に貢献していることを示しています。質的な結果(図7参照)でも、OpenCLIPと比較してより滑らかで正確なセグメンテーションマスクや深度マップを生成しています。

-
Emerging Properties: パッチ特徴量に対するPCA分析により、教師なしで画像から前景/背景が分離できること、および同じカテゴリの異なる画像間で物体パーツが対応することが示されました(図1、図9参照)。また、画像間のパッチマッチング(図10参照)では、スタイル(実写 vs 描画)やポーズ、さらには異なる物体間(飛行機の翼 vs 鳥の翼)でも意味的に類似した領域が対応付けられることが確認されました。これらは、DINOv2が訓練データに見られる視覚的な概念を、単なる分類ラベルに縛られず、より柔軟かつ構造的に学習していることを示唆する興味深い性質です。

公平性とバイアス分析
モデルの公平性については、Dollar Streetデータセットを用いた地理的・収入レベルによるバイアス評価と、Casual Conversationsデータセットを用いた性別・スキントーン・年齢によるラベル関連性の評価を行っています。
- 地理的公平性: Dollar Streetでの評価(Table 12)では、SEERv2などのベースラインよりは公平性が高いものの、ヨーロッパや高収入家庭に比べてアフリカ地域や低収入家庭での性能が有意に低いことが示されました。これは、学習データにおけるこれらのグループの表現の偏りを反映していると考えられます。
-
性別、スキントーン、年齢: Casual Conversationsデータセットを用いた評価(Table 13)では、特定のスキントーンや性別に対する有害ラベル(Non-HumanやCrime)の関連性は低いことが確認されました。ただし、「Possibly-Human」(スカーフ、メガネ、ヒゲなど、人間に関連する物体クラス)といった、人間に関連するが人間そのものではないクラスの予測に偏りが見られ、特に男性に対して「Beard」クラスが関連付けられやすい傾向がありました。全体として、本評価プロトコルでは特定のグループに対する大きなバイアスは確認されませんでしたが、より徹底的な分析が必要であると論文は認めています。
環境影響の評価
大規模モデルの訓練に伴う環境負荷についても言及されています。米国の平均的なデータセンターでの再訓練を想定した推定では、DINOv2 (ViT-g) の訓練には約9.7 MWhのエネルギー消費と3.7 tCO2eqの炭素排出が伴うと推定されています(Table 14)。これは、同規模のOpenCLIPモデル(テキストエンコーダーも含むが、ここでは比較対象から除外)の訓練と比較してエネルギー効率が良いとされていますが、プロジェクト全体の訓練・実験を合計すると、500〜1000 tCO2eqの排出量になると推定しており、無視できない規模です。
限界と今後の課題
DINOv2は教師なし学習で汎用Visual Feature学習におけるSOTAを達成しましたが、いくつかの限界と今後の課題が挙げられます。
- データバイアス: LVD-142Mデータセットは自動構築されたものであり、完全な多様性や公平性を保証するものではありません。評価で示された地理的・収入レベルのバイアスは、データ収集プロセスの改善や、バイアスを緩和する学習手法の開発の必要性を示唆しています。
- 環境負荷: 大規模モデルの訓練は計算リソースを大量に消費し、環境負荷が高いという根本的な課題があります。よりエネルギー効率の良いアーキテクチャや訓練手法の研究は引き続き重要です。
- 更なるスケールアップ: 大規模言語モデルの例から、モデルとデータの規模をさらに拡大することで、予期せぬ、より高度な能力が発現する可能性があります。論文著者らは、この方向での研究を継続する計画です。
- 言語モデリングとの連携: 本研究で学習された強力なVisual Featureを、大規模言語モデルと統合し、画像とテキストを統合的に理解・処理できるマルチモーダルAIシステムの構築が有望な方向性として挙げられています。画像を「単語」のように扱うことで、言語による指示に基づいた高度な視覚タスクが可能になるかもしれません。
- Emerging Propertiesの深掘り: 物体パーツ理解や深度推定といったEmerging Propertiesが、なぜ教師なし学習から自然に獲得されるのか、そのメカニズムをさらに深く理解することは、次世代の視覚認識モデル設計において重要です。
結論
DINOv2は、大規模でキュレーションされたデータセットを、効率的な実装と改良された自己教師あり学習フレームワークで訓練することにより、教師なし学習のみで既存手法を凌駕する汎用Visual Featureを学習しました。これらの特徴量は、画像・ピクセルレベルの様々なタスクにおいて、ファインチューニングなしでも高い性能を発揮し、テキスト指導型の学習モデルにも匹敵する競争力を持つことを示しました。これは、コンピュータビジョン分野におけるFoundation Modelの実現に向けた重要な一歩です。モデルのバイアスや環境負荷といった課題は残るものの、更なるスケールアップや言語モデルとの連携、Emerging Propertiesの探求といった今後の研究方向は、視覚認識技術の未来を大きく切り開く可能性を秘めています。




