自己教師あり学習まとめ

Last updated at 2025-03-23Posted at 2024-03-14

本記事について

本記事では自己教師あり学習の概要と枠組みに加えて，代表的な手法を紹介しつつ，いくつかの手法を解説する．すべての手法は解説しません．

自己教師あり学習とは

自己教師あり学習(SSL：Self-Supervised Learning)は，正解ラベルのない大量のデータから，学習用の情報(ラベルやデータの関係性など)を自動的に生成し，学習に用いる手法．

自己教師あり学習は以下の2つに大別

本記事では，主に下流タスクに利用する事前学習を行う手法を紹介する．

特定のタスクに特化した手法

異常検知，自動運転 etc.

手法例

CutPaste
- CutPaste: Self-Supervised Learning for Anomaly Detection and Localization
SelfOcc
- SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction

下流タスクに利用する事前学習を行う手法

Contrastive Learning，Masked Image Modeling etc.

手法例

SimCLR
- A Simple Framework for Contrastive Learning of Visual Representations
MAE
- SimMIM: A Simple Framework for Masked Image Modeling

大量のラベルなしデータを用いた事前学習

自己教師あり学習や半教師あり学習により様々データで学習した様々な下流タスクに適用可能な大規模なモデルを基盤モデルといいOpenAIが開発したGenerative Pretrained Transformer(GPT)やCLIP，Metaの開発したSegment Anything Model(SAM)などが該当する．

SSLで学習したモデルは事前学習モデルとして様々な下流タスク(画像分類，物体検出，セグメンテーションなど)に合わせて転移学習・Fine-tuningを行う．

自己教師あり学習は主に以下の2つのステップで学習される．
1，入力データに対して疑似的なラベルを付与してPretext taskでモデルを事前学習
2，事前学習済みのモデルを下流タスクに合わせて転移学習・Fine-tuning

Pretext taskについて

Pretext taskはラベルを付与していないデータを用いてモデルに解かせる疑似的な問題を指す．

様々な手法が提案され，現在は同じ画像から得られた特徴量は近づけ，異なる画像から得られた特徴量は遠ざけるように学習するContrastive Learning(CL)とマスクされたパッチを予測するMasked Image Modeling(MIM)が主流である．

例：色予測や回転角度の予測，ジグソーパズル，色と形状変換の予測，マスクされた画素値の予測など

主なSSLの手法

ここでは，SSLの手法としてCLベースの手法とMIMベースの手法を紹介する．

CLベースの手法

CLベースの手法ではData Augmentationにより拡張した画像をモデル(Encoder)に入力し特徴量を抽出する．そして，同じ画像から得られた特徴量は近づけ，異なる画像から得られた特徴量は遠ざけるように学習する．
CLベースの手法の代表的なものとして下記があげられる．

MoCo v1/v2/v3
- Momentum Contrast for Unsupervised Visual Representation Learning
- Improved Baselines with Momentum Contrastive Learning
- An Empirical Study of Training Self-Supervised Vision Transformers
SimCLR
- A Simple Framework for Contrastive Learning of Visual Representations
BYOL
- Bootstrap your own latent: A new approach to self-supervised Learning
Barlow Twins
- Barlow Twins: Self-Supervised Learning via Redundancy Reduction
SwAV
- Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
SimSiam
- Exploring Simple Siamese Representation Learning
DINO
- Emerging Properties in Self-Supervised Vision Transformers

MIMベースの手法

MIMベースの手法では入力画像を分割したパッチの内一部のパッチをマスクする．そして，マスクしていないパッチのみをモデルに入力し，マスクされたパッチを予測するように学習する．
MIMベースの手法の代表的なものとして下記があげられる．

BEiT
- BEiT: BERT Pre-Training of Image Transformers
SimMIM
- SimMIM: A Simple Framework for Masked Image Modeling
MAE
- Masked Autoencoders Are Scalable Vision Learners
MultiMAE
- MultiMAE: Multi-modal Multi-task Masked Autoencoders

CLとMIMを組み合わせた手法

CLとMIMを組み合わせた手法も提案されている．
CLとMIMを組み合わせた手法の代表的なものとして下記があげられる．

iBOT
- iBOT: Image BERT Pre-Training with Online Tokenizer
SiT
- SiT: Self-supervised vIsion Transformer
CMAE
- Contrastive Masked Autoencoders are Stronger Vision Learners

解説

各学習手法からいくつかを抜粋して，紹介する．

Cntrastive Learning(CL)ベースの手法

MoCo (v1) ※ 後述するMoCo v2/v3が提案されて以降区別するためにMoCo v1と呼ばれることもある

ポジティブペアの類似度を最大化，ネガティブペアの類似度を最小化するように学習
- queueに特徴量を保存し，ネガティブペアとして活用
MoCoはミニバッチ内の画像を拡張するData Augmentationと特徴量を抽出するEncoder，Momentum Encoder，特徴量を保存するqueueで構成

MoCoは4つのステップで学習を行う．

データ拡張
- ミニバッチの画像にData Augmentationを施し見えの異なる2枚の画像に拡張
  - ポジティブペア：元画像が同じ画像
  - ネガティブペア：元画像が異なる画像
特徴量の抽出
- 拡張した画像群をEncoderとMomentum Encoderに入力し，特徴量を抽出
  - Momentum Encoderの重みはEncoderの指数移動平均(EMA)で更新
    - queueに保存された特徴量と分布が大きくずれることを防止するため
損失計算
- 損失関数にはInfoNCEを使用
- ポジティブペアの類似度を最大化，ネガティブペアの類似度を最小化するように学習
  - ネガティブペアにはqueueに保存された過去の特徴量も使用
queueの更新(保存)
- Momentum Encoderから得られた特徴量でqueueを更新(保存)
  - queueに保存された特徴量はネガティブペアとして活用

MoCo v2 ※ SimCLRに触発されMoCo v1を改良した手法

MoCo v1にProjectorとData Augmentationの種類を増やした手法
Encoder，Momentum Encoderで抽出した特徴量をProjectorに入力して損失を計算
MoCo v2はミニバッチ内の画像を拡張するData Augmentationと特徴量を抽出するEncoder，Momentum Encoder，特徴量を保存するqueue，特徴量を投影変換するProjectorで構成
- Projectorは2層の全結合層から構成されるMLPである

学習の流れは基本的にMoCo v1と同じであるため割愛する

MoCo v3 ※ Vision Transformer(ViT)にも適用できるようにMoCo v1/v2を改良した手法

MoCo v3はミニバッチ内の画像を拡張するData Augmentationと特徴量を抽出するEncoder，Momentum Encoder，特徴量を投影変換するProjectorで構成
- Projectorは2層の全結合層から構成されるMLPである
- MoCo v2からqueueを削除した構成であるため，queueの更新(保存)を行わない

学習の流れは基本的にMoCo v1/v2と同じであるため割愛する．

SimCLR

ポジティブペアの類似度を最大化，ネガティブペアの類似度を最小化するように学習
- Encoderで抽出した特徴量をProjectorに入力して損失を計算
SimCLRはミニバッチ内の画像を拡張するData Augmentationと特徴量を抽出するEncoder，特徴量を投影変換するProjectorで構成
- Projectorは2層の全結合層から構成されるMLPである

SimCLRは3つのステップで学習を行う．

データ拡張
- ミニバッチの画像にData Augmentationを施し見えの異なる2枚の画像に拡張
  - ポジティブペア：元画像が同じ画像
  - ネガティブペア：元画像が異なる画像
特徴量の抽出
- 拡張した画像群をEncoderとProjectorに入力し，特徴量を抽出
  - Encoder，Projectorの重みは共有
  - Projectorを介することで，EncoderがPretext taskに特化することを防止
損失計算
- 損失関数にはNormalized Temperature-scaled Cross Entropyloss(NT-Xent)を使用
- ポジティブペアの類似度を最大化，ネガティブペアの類似度を最小化するように学習
  - Projectorで投影変換した特徴量で類似度を計算

SimSiam

ポジティブペアの類似度を最大化するように学習
- ネガティブペアは使用しない
  - SimCLRより計算量を削減
- Encoderで抽出した特徴量をProjector及びPredictorに入力して損失を計算
SimSiamはミニバッチ内の画像を拡張するData Augmentationと特徴量を抽出するEncoder，特徴量を投影変換するProjector，特徴量を予測するPredictorで構成
- Projector，Predictorは2層の全結合層から構成されるMLPである

SimSiamは3つのステップで学習を行う．

データ拡張
- ミニバッチの画像にData Augmentationを施し見えの異なる2枚の画像に拡張
  - ポジティブペア：元画像が同じ画像
特徴量の抽出
- 拡張した画像群をEncoder，Projector，Predictorに入力し，特徴量を抽出
  - Encoder，Projector，Predictorの重みは共有
損失計算
- 損失関数には負のコサイン類似度を使用
- ポジティブペアの類似度を最大化するように学習
  - Projectorで投影変換した特徴量とPredictorで予測した特徴量で類似度を計算
  - Predictor，Stop-Gradを用いることでモデルの崩壊を防止
  - モデルの崩壊：どのような画像に対しても同じ特徴量を抽出するように学習してしまうこと
    - ネガティブペアを使用せず，ポジティブペアを近づけるだけなので発生しやすい

DINO

自己教師あり学習に蒸留(distillation)の考えを導入した手法
見えの異なる画像から得られた特徴量の類似度を最大化するように学習
- 局所領域を切り出すLocalと大局領域を切り出すGlobalを適用
  - StudentにはLocalを適用した画像，TeacherにはGlobalを適用した画像を入力
ViTにも適用可能な手法
DINOはミニバッチ内の画像を拡張するData Augmentationと特徴量を抽出するEncoder，特徴量を投影変換するProjector，特徴量を調整するCentering，Sharpeningで構成
- Encoderは重みの異なるTeacherとStudentを使用
- Projectorは4層の全結合層から構成されるMLPである

DINOは4つのステップで学習を行う．

データ拡張
- ミニバッチの画像にデータ拡張を施し見えの異なる2枚の画像に拡張
  - 局所領域を切り出すLocalと大局領域を切り出すGlobalを適用
  - ポジティブペア：元画像が同じ画像
特徴量の抽出
- 拡張した画像群をEncoder，Projectorに入力し，特徴量を抽出
  - Teacherの重みはStudentのEMAで更新
  - StudentにはLocalを適用した画像，TeacherにはGlobalを適用した画像を入力
    - Studentは難易度の高い問題，Teacher難易度の低い問題を解く
特徴量の調整(Centering，Sharpening)
- Teacherが出力した特徴量にCenteringを適用
  - どのような画像に対しても同じ特徴量を抽出することを防止
- Teacher，Studentが出力した特徴量にSharpeningを適用
  - 温度付きSoftmax関数と同じ処理
  - 特徴量の分布が均一にならないように分布を強調(分布を鋭くしている)
損失計算
- Teacherが出力する特徴量とStudentが出力する特徴量を近づけるように学習
  - Teacher：CenteringとSharpeningを施した特徴量
  - Student： Sharpeningを施した特徴量
  - Centering，Sharpening，Stop-Gradを用いることでモデルの崩壊を防止

Masked Image Modeling(MIM)ベースの手法

SimMIM

Transformerベースの画像認識モデル用の自己教師あり学習の手法
- EncoderにはViTやSwin TransformerのEncoderを使用
SimMIMはEncoderと画像を復元する全結合層で構成
- 画像の復元には，1層の全結合層を使用

SimMIMは4つのステップで学習を行う．

パッチをマスク
- 入力画像をパッチに分割し，マスクを適用
  - マスク率には60 %を使用
パッチトークン(特徴量)の抽出
- マスクしたパッチとマスクされていないパッチの両方をEncoderに入力し，特徴量を抽出
マスクしたパッチを復元
- Encoderが抽出した特徴量を基にマスクしたパッチを復元
- 復元には，1層の全結合層を使用することで軽量化
損失計算
- 損失関数にはL1 Lossを使用
- 復元したパッチとマスクしたパッチ(入力画像)のL1 Lossを最小化するように学習

Masked Autoencoder(MAE)

ViT用の自己教師あり学習の手法
EncoderとDecoderで構成
- EncoderとDecoderにはTransformer Encoderを使用
  - DecoderはEncoderより小規模なTransformer Encoder
  - 下流タスク適用時にはEncoderのみ使用し，Decoderは破棄

MAEは4つのステップで学習を行う．

パッチをマスク
- 入力画像をパッチに分割し，マスクを適用
  - マスク率には75 %などの高い値を使用
パッチトークン(特徴量)の抽出
- マスクされていないパッチのみをEncoderに入力し，パッチトークンを抽出
  - マスクされていないパッチのみを入力することで，計算量を削減
マスクしたパッチを復元
- パッチトークンにマスクトークンを結合し， Decoderに入力
- マスクしたパッチを復元するように学習
  - マスクトークン：マスクしたパッチを意味するトークン
損失計算
- 損失関数には平均二乗誤差(MSE)を使用
- 復元したパッチとマスクしたパッチ(入力画像)のMSEを最小化するように学習

MultiMAE

MAEをマルチモーダルに拡張した手法
- 下流タスク適用時は，MAEと異なりマルチモーダルに適用可能
Encoderと各モーダル用のDecoderで構成
- EncoderとDecoderにはTransformer Encoderを使用
  - DecoderはEncoderより小規模なTransformer Encoder
  - 下流タスク適用時にはEncoderのみ使用し，Decoderは破棄

MultiMAEは4つのステップで学習を行う．

パッチをマスク
- 入力画像(複数のモーダルの画像)をパッチに分割し，マスクを適用
  - マスク率には75 %などの高い値を使用
パッチトークン(特徴量)の抽出
- マスクされていないパッチのみをEncoderに入力し，パッチトークンを抽出
  - マスクされていないパッチのみを入力することで，計算量を削減
マスクしたパッチを復元
- 各モーダルのパッチトークンにマスクトークンを結合し，各モーダルのDecoderに入力
- マスクしたパッチを復元するように学習
  - マスクトークン：マスクしたパッチを意味するトークン
損失計算
- 損失関数には平均二乗誤差(MSE)を使用
- 復元したパッチとマスクしたパッチ(入力画像)のMSEを最小化するように学習

CL+MIMのハイブリッド

iBOT

Contrastive LearningとMasked Image Modelingを組み合わせた手法
DINOと同様にTeacherとStudentを用いて蒸留(distillation)を行う
- 局所領域を切り出すLocalと大局領域を切り出すGlobalを適用
  - Studentにはマスクを適用した画像，Teacherの入力にはマスクを適用しない
iBOTはミニバッチ内の画像を拡張するData Augmentationと特徴量を抽出するEncoder，特徴量を投影変換するProjectorで構成
- Encoderは重みの異なるTeacherとStudentを使用
- Projectorは3層の全結合層から構成されるMLPである

iBOTは3つのステップで学習

データ拡張
- ミニバッチの画像にデータ拡張を施し見えの異なる2枚の画像に拡張
  - 局所領域を切り出すLocalと大局領域を切り出すGlobalを適用
  - ポジティブペア：元画像が同じ画像
特徴量の抽出
- 拡張した画像群をEncoder，Projectorに入力し，特徴量を抽出
  - Teacherの重みはStudentのEMAで更新
  - Studentにはマスクを適用した画像，Teacherの入力にはマスクを適用しない
損失計算
- 2つの損失で学習
  - Contrastive Loss：StudentのClass TokenとTeacherのClass Tokenの類似度を最大化
  - MIM Loss：Studentが出力したマスクトークンとTeacherが出力した特徴量を最小化

まとめ

近年非常に注目されている自己教師あり学習の概要とPretext task，自己教師あり学習の枠組みとしてCLベースの手法とMIMベースの手法の代表的な手法を紹介しました．
ここで，SimCLRとSimSiamのサンプルコードを公開しています．

参考文献

CutPaste: Self-Supervised Learning for Anomaly Detection and Localization
SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction
Improving Language Understanding by Generative Pre-Training
Language Models are Unsupervised Multitask Learners
Language Models are Few-Shot Learners
Learning Transferable Visual Models From Natural Language Supervision
Segment Anything
Momentum Contrast for Unsupervised Visual Representation Learning
Improved Baselines with Momentum Contrastive Learning
An Empirical Study of Training Self-Supervised Vision Transformers
A Simple Framework for Contrastive Learning of Visual Representations
Bootstrap your own latent: A new approach to self-supervised Learning
Barlow Twins: Self-Supervised Learning via Redundancy Reduction
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
Exploring Simple Siamese Representation Learning
Emerging Properties in Self-Supervised Vision Transformers
BEiT: BERT Pre-Training of Image Transformers
SimMIM: A Simple Framework for Masked Image Modeling
Masked Autoencoders Are Scalable Vision Learners
MultiMAE: Multi-modal Multi-task Masked Autoencoders
iBOT: Image BERT Pre-Training with Online Tokenizer
SiT: Self-supervised vIsion Transformer
Contrastive Masked Autoencoders are Stronger Vision Learners

備考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up