1. 概要
画像生成時に条件を与えて所望の結果を得る手法として条件付き画像生成手法が多く提案されているが、既存手法では主にラベルやテキストのプロンプトのみを条件対象としていた。この研究ではMask Sketchというスケッチを条件付けの情報として用いることで、生成される画像を空間的に制約することを可能にしている。

2. 新規性
事前学習されたトランスフォーマー(Masked Generative Transformer)を用いることで、追加学習やマスクと画像のペア学習などを一切必要とせず、異なる抽象度のマスクを入力としても画像を生成することができるようになった。Masked Generative Transformerの中間ブロックのSelf-Attentionがシーンのレイアウト構造や物体の形状などの入力画像の重要な構造情報を色濃く反映していることを発見し、これを用いた新たなサンプリング方式を提案している。

3. 実現方法

入力画像と生成画像の各レイヤーのAttentionの自己相似性(self-similarity)を求め、類似度が高いほど構造が似通っていることを利用してサンプリングを行う。
4. 結果
Mask Sketchは入力のスケッチ画のコンテクストや画像の構造情報をよりよく反映して画像生成できていることがわかる。ImageNetSketch、Pseudosketchでそれぞれ評価実験を行っており、既存手法よりもスケッチから画像への変換精度が高いことを確認している。
last updates: June 18 2023