#0253（2025/10/08）ラベルなし画像から強い表現を学ぶ：自己教師あり学習

Posted at 2025-10-08

ラベルなし画像から強い表現を学ぶ：DINOを軸に自己教師あり学習を実務目線で整理

DINOとは、同一画像の異なるビューを教師ネットワークと生徒ネットワークで整合させ、ラベルなしで汎用的な特徴表現を学習する手法である。

自己蒸留(Self-Distillation): 同一画像から生成した複数ビュー(強・弱オーグメント、マルチクロップ)に対し、教師(teacher) の出力分布に 生徒(student) が一致するよう学習。教師は生徒の指数移動平均(EMA)で更新し、崩壊を抑制。
出力空間: クラスタ原型(prototypes)に対する確率分布(ソフトマックス)。特徴を直接揃えるのではなく、分布として整合。
安定化の工夫: センタリングとシャープニングで、表現の崩壊(全サンプルが同一点に潰れる)を回避。
バックボーン: ViTを用いることでグローバルな関係を捉えやすく、パッチレベルの表現も自然に得られる。
学習後の使い方: 凍結したエンコーダから埋め込みを抽出し、k-NN、線形分類、クラスタリング、距離ベースの異常スコアなどに活用。

同じ階層の比較は表でまとめます。

観点	エンコード/CNN(教師あり分類の中間層を流用)	PaDiM	PatchCore	DINO(SSL)
主目的	クラス分類のための特徴	正常分布のモデリング	メモリバンクの近傍探索	ラベルなしで汎用表現
監督信号	有り(ラベル必須)	なし(正常のみ)	なし(正常中心)	なし(自己蒸留)
特徴の粒度	画像/チャネル中心	パッチごとのガウス分布	コアセット化したパッチ	画像・パッチ両方強い
データ要件	十分なラベル	正常画像多数	正常画像多数+メモリ制御	未ラベル多数(雑多でOK)
推論コスト	低〜中	中(分布参照)	中(近傍探索)	低〜中(埋め込み→軽量分類/距離)
異常検知	流用可だが目的外	強い(設定依存)	強い(実務実績多)	強い(特徴の一般性)
ドメイン移行	再学習必要	再学習必要	再学習必要	特徴流用が効きやすい
スケール/継続学習	ラベル準備が律速	データ拡張で対応	メモリ設計がボトルネック	追加未ラベルで継続学習しやすい

要点: DINOはラベル不要で強い表現を作り、従来の距離ベース異常検知(例: PatchCore)の下地としても使える。CNNの中間特徴流用よりも、ドメインが変わっても性能が落ちにくい傾向。

要点: 拡散は「作る」能力が強み、DINOは「分かる」能力が強み。認識系・検査系での素早い高精度化ならDINOの方が扱いやすい場面が多い。

入力解像度: ViTは解像度依存。検査系は細部が効くので、学習・推論で同等のスケール感を維持。
オーグメント: カラー抑えめ、幾何変換は強めが無難(過度な色変換は検査系で逆効果)。
正規化: 埋め込みはL2正規化して距離・類似度を安定化。
バッチと温度: 温度(softmax温度)やプロトタイプ数は表現の粒度に効く。小規模データではプロトタイプ少なめから。
メモリ設計: 異常検知のメモリはクラスター代表だけ保持(コアセット)。速度と精度のトレードオフを明示的に管理。
評価:
- 分類: 線形プローブとk-NNの両方を確認。ドメインシフト時はk-NNが安定しがち。
- 異常検知: 画像レベルAUROCとピクセルレベルAUPROを両方見る。スコア分布のキャリブレーションも忘れずに。