More than 1 year has passed since last update.

Understanding Masked Autoencoders via Hierarchical Latent Variable Models

Last updated at 2023-07-01Posted at 2023-06-26

1. 概要

マスク付きオートエンコーダー(Masked Autoencoder: MAE)は、入力画像をあえてマスクしてその復元パターンを学習させることで汎化性を得る技術のことで、そのシンプルな構造から自己教師有り学習(self-supervised learning)を用いたコンピュータビジョンの様々なタスクで効果が確認され注目を集めている。MAEを用いた研究は実験的にうまくいっているが、なぜ意味のある表現力が得られるのかなどその理論は未だ解明されていない。

2. 新規性

この研究では、画像を生成するプロセス自体を階層構造で表し、物体の各パーツなどの部分集合を葉に、物体全体の概念情報を根に持つように表現することで、MAEはピクセル単位の情報から根に当たる物体全体の概念情報を特徴量として獲得できることを明らかにした。

3. 実現方法

MAEの主要なハイパーパラメータであるマスキング比率とパッチサイズが、どの高次元特徴量に紐づいてノイズから元の画像パッチを復元する能力に寄与しているのかを解析的に明らかにしている。その結果、極端に大きかったり小さかったりするマスキングの比率を採用すると木構造の葉に当たる低次元の表現力に作用することが分かった。

4. 結果

MAEのオリジナル論文のように入力画像の75％をマスクすると階層構造的にオリジナルの入力画像と近くなったことから画像全体の情報を特徴量として獲得できていることが分かった。
一方、画像の90%をマスクした場合、物体の局所的な部位を学習してしまい汎化性が得られないことが分かった。

Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Kong_Understanding_Masked_Autoencoders_via_Hierarchical_Latent_Variable_Models_CVPR_2023_paper.pdf

last updates: June 19 2023

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up