1. 概要
マスク付き画像モデリング(Masked Image Modeling: MIM)とは、マスク付きオートエンコーダー(Masked Autoencoder: MAE)で解いていたような画像の一部をマスクしてそのマスク領域を元の画像から再構築することを学習するだけでなく、再構築された画像と元の画像の類似性を評価して学習にフィードバックする技術のことを指す。MIMでは、マスクされた領域とマスクされていない領域の関係性を学習することで、画像全体の特徴を獲得することを目指している。しかし、MAE同様、実験的にコンピュータビジョンのタスクでうまくいっているが、MIMの動作原理はまだ未解明である。
2. 新規性
この研究では、MIMが物体が他の物体で遮蔽されて一部見えなくなるオクルージョンに対して頑健な特徴を得ることができるために汎化性が高まるのではないかという仮説を立て検証している。
3. 実現方法
従来研究として対照学習(contrustive learning)を用いたSiamese Network(入力が二系統に分かれたネットワーク)による手法が多く研究されており、この研究ではSiamese Networkの構造に加えて、物体の見かけに不変になる特徴の獲得と復元後の画像と入力画像との類似度の評価を新たな制約として取り入れている。
4. 結果
既存の表現学習(representation learning)の手法と比べて少ない学習回数で高精度化に成功している。
last updates: June 19 2023