本記事について
本記事では自己教師あり学習の概要と枠組みに加えて,代表的な手法を紹介しつつ,いくつかの手法を解説します.すべての手法は解説しません.
自己教師あり学習とは
自己教師あり学習(SSL:Self-Supervised Learning)は,ラベルを付与してないデータに対して疑似的なラベルを付与して擬似的な問題(Pretext task)を解くことによって学習する手法を指す.
また,自己教師あり学習や半教師あり学習により様々データで学習した様々な下流タスクに適用可能な大規模なモデルを基盤モデルといいOpenAIが開発したGenerative Pretrained Transformer(GPT)やCLIP,Metaの開発したSegment Anything Model(SAM)などが該当する.
SSLで学習したモデルは事前学習モデルとして様々な下流タスク(画像分類,物体検出,セグメンテーション など)に合わせて転移学習・Fine-tuningを行う.
自己教師あり学習は主に以下の2つのステップで学習される.
1,入力データに対して疑似的なラベルを付与してPretext taskでモデルを事前学習
2,事前学習済みのモデルを下流タスクに合わせて転移学習・Fine-tuning
Pretext taskについて
Pretext taskはラベルを付与していないデータを用いてモデルに解かせる疑似的な問題を指す.
様々な手法が提案され,現在は同じ画像から得られた特徴量は近づけ,異なる画像から得られた特徴量は遠ざけるように学習するContrastive Learning(CL)とマスクされたパッチを予測するMasked Image Modeling(MIM)が主流である.
例:色予測や回転角度の予測,ジグソーパズル,色と形状変換の予測,マスクされた画素値の予測 など
主なSSLの手法
ここでは,SSLの手法としてCLベースの手法とMIMベースの手法を紹介する.
CLベースの手法
CLベースの手法ではData Augmentationにより拡張した画像をモデル(Encoder)に入力し特徴量を抽出する.そして,同じ画像から得られた特徴量は近づけ,異なる画像から得られた特徴量は遠ざけるように学習する.
CLベースの手法の代表的なものとして下記があげられる.
- MoCo v1/v2/v3
- Momentum Contrast for Unsupervised Visual Representation Learning
- Improved Baselines with Momentum Contrastive Learning
- An Empirical Study of Training Self-Supervised Vision Transformers
- SimCLR
- A Simple Framework for Contrastive Learning of Visual Representations
- BYOL
- Bootstrap your own latent: A new approach to self-supervised Learning
- Barlow Twins
- Barlow Twins: Self-Supervised Learning via Redundancy Reduction
- SwAV
- Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
- SimSiam
- Exploring Simple Siamese Representation Learning
- DINO
- Emerging Properties in Self-Supervised Vision Transformers
MIMベースの手法
MIMベースの手法では入力画像を分割したパッチの内一部のパッチをマスクする.そして,マスクしていないパッチのみをモデルに入力し,マスクされたパッチを予測するように学習する.
MIMベースの手法の代表的なものとして下記があげられる.
- BEiT
- BEiT: BERT Pre-Training of Image Transformers
- SimMIM
- SimMIM: A Simple Framework for Masked Image Modeling
- MAE
- Masked Autoencoders Are Scalable Vision Learners
- MultiMAE
- MultiMAE: Multi-modal Multi-task Masked Autoencoders
CLとMIMを組み合わせた手法
CLとMIMを組み合わせた手法も提案されている.
CLとMIMを組み合わせた手法の代表的なものとして下記があげられる.
- iBOT
- iBOT: Image BERT Pre-Training with Online Tokenizer
- SiT
- SiT: Self-supervised vIsion Transformer
- CMAE
- Contrastive Masked Autoencoders are Stronger Vision Learners
解説
CLベースの手法からSimCLR,MIMベースの手法からMasked Autoencoder(MAE)を解説する.
SimCLR
SimCLRはミニバッチ内の画像を拡張するData Augmentationと特徴量を抽出するEncoder,特徴量を投影変換するProjectorで構成される.Projectorは2層の全結合層から構成されるMLPである.
SimCLRは同じ画像から得られた特徴量をポジティブペア,異なる画像から得られた特徴量をネガティブペアとして扱い,ポジティブペアの類似度が大きく,ネガティブペアの類似度が小さくなるように互いの特徴量を予測するPretext taskを解くことでEncoderの性能を強化する.
Projectorにより投影変換した特徴量で類似度を計算することで,Encoderが抽出する特徴量がPretext taskに特化することを防止している.
こうして学習したEncoderに画像分類用の分類器や物体検出やセグメンテーション用のヘッドを取り付けて転移学習・Fine-tuningを行う.
損失関数にはNormalized Temperature-scaled Cross Entropyloss(NT-Xent) を使用する.
l(i,j) = -log\frac{exp(sim(z_i,z_j)/τ)}{Σ^{2N}_{k=1} \boldsymbol{1_{k\neq i}} exp(sim(z_i,z_k)/τ)}
SimCLRはバッチサイズとモデルサイズ,エポックを大きくするほど性能が向上する.
Masked Autoencoder(MAE)
Masked Autoencoder(MAE)はEncoderとDecoderにVision Transformer(ViT)のTransformer Encoderを用いた構造となっている.DecoderはEncoderより小さいTransformer Encoderを用いる.
MAEはパッチ分割した入力画像に対してマスクを施し,マスクされていないパッチのみをEncoderに入力する.Encoderでは,入力されたパッチからパッチトークンとマスクトークンを出力する.Decoderには,パッチトークンとマスクトークンの両方を入力し,元画像を復元するように学習する.
MAEは自己教師あり学習により学習したEncoderのみを使用し,Decoderは破棄する.
こうして学習したEncoderに画像分類用の分類器や物体検出やセグメンテーション用のヘッドを取り付けて転移学習・Fine-tuningを行う.
損失関数には,入力画像とマスクトークンとの平均二乗誤差(MSE:Mean Squared Error) を使用する.
MAEはマスク率75%が最も高精度である.
まとめ
近年非常に注目されている自己教師あり学習の概要とPretext task,自己教師あり学習の枠組みとしてCLベースの手法とMIMベースの手法の代表的な手法を紹介しました.
また,CLベースの手法からはSimCLR,MIMベースの手法からはMAEを解説しました.
参考文献
- Improving Language Understanding by Generative Pre-Training
- Language Models are Unsupervised Multitask Learners
- Language Models are Few-Shot Learners
- Learning Transferable Visual Models From Natural Language Supervision
- Segment Anything
- Momentum Contrast for Unsupervised Visual Representation Learning
- Improved Baselines with Momentum Contrastive Learning
- An Empirical Study of Training Self-Supervised Vision Transformers
- A Simple Framework for Contrastive Learning of Visual Representations
- Bootstrap your own latent: A new approach to self-supervised Learning
- Barlow Twins: Self-Supervised Learning via Redundancy Reduction
- Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
- Exploring Simple Siamese Representation Learning
- Emerging Properties in Self-Supervised Vision Transformers
- BEiT: BERT Pre-Training of Image Transformers
- SimMIM: A Simple Framework for Masked Image Modeling
- Masked Autoencoders Are Scalable Vision Learners
- MultiMAE: Multi-modal Multi-task Masked Autoencoders
- iBOT: Image BERT Pre-Training with Online Tokenizer
- SiT: Self-supervised vIsion Transformer
- Contrastive Masked Autoencoders are Stronger Vision Learners