1. 概要
マスク付きオートエンコーダー(Masked Autoencoder: MAE)は、入力画像をあえてマスクしてその復元パターンを学習させることで汎化性を得る技術のことで、そのシンプルな構造から自己教師有り学習(self-supervised learning)を用いたコンピュータビジョンの様々なタスクで効果が確認され注目を集めている。MAEを用いた研究は実験的にうまくいっているが、なぜ意味のある表現力が得られるのかなどその理論は未だ解明されていない。
2. 新規性
この研究では、画像を生成するプロセス自体を階層構造で表し、物体の各パーツなどの部分集合を葉に、物体全体の概念情報を根に持つように表現することで、MAEはピクセル単位の情報から根に当たる物体全体の概念情報を特徴量として獲得できることを明らかにした。
3. 実現方法
MAEの主要なハイパーパラメータであるマスキング比率とパッチサイズが、どの高次元特徴量に紐づいてノイズから元の画像パッチを復元する能力に寄与しているのかを解析的に明らかにしている。その結果、極端に大きかったり小さかったりするマスキングの比率を採用すると木構造の葉に当たる低次元の表現力に作用することが分かった。
4. 結果
MAEのオリジナル論文のように入力画像の75%をマスクすると階層構造的にオリジナルの入力画像と近くなったことから画像全体の情報を特徴量として獲得できていることが分かった。
一方、画像の90%をマスクした場合、物体の局所的な部位を学習してしまい汎化性が得られないことが分かった。
last updates: June 19 2023