"Towards Scalable Pre-training of Visual Tokenizers for Generation" (生成のための視覚的トークナイザーの拡張可能な事前学習に向けて) という論文の紹介です。
Visual Tokenizers Pre-training(VPT)という方法を提案しています。
近年の生成モデル(特に拡散モデルや大規模画像生成モデル)では、ビジュアルトークナイザーの質が生成性能に大きく影響します。従来主流であった「再構成(reconstruction)」だけを目的としたトークナイザーの限界を超える、生成に強いトークナイザーをスケール可能に学習する新しい枠組みを提案しています。
生成モデルを強くするには、モデル本体だけでなく「画像の前処理」を工夫したということです。
従来のトークナイザーと限界
ビジュアルトークナイザーとは
ビジュアルトークナイザーは、入力画像を 潜在ベクトル(latent representation) に変換する役割を持ちます。
これは 潜在拡散モデル(latent diffusion models) のようなジェネレーティブモデルの第一段階として機能し、モデルが画像を理解・生成する際の基盤となります。
つまり、画像をそのまま扱うのではなく、モデルが処理しやすい数値表現に変換する役割を担います。
従来の学習方法の問題点
従来のトークナイザーは主に 画像の再構成誤差(reconstruction loss) を最小化することを目的として訓練されてきました。しかしこの設計には制約がある、と主張しています。
- 再構成性能は向上するが、生成品質には結びつきにくい
- 再構成を重視するあまり、潜在空間が低レベル情報に偏ってしまう
- 計算リソースの投入が生成改善にスケールしない
きれいに復元できても、「精巧に画像を生み出せるトークン」になっているとは限らないという問題です。
統合されたスケーラブルトークナイザー学習
この問題を解決するため論文では、VTP(Visual Tokenizer Pre-training) という学習フレームワークが提案されています。
これは複数の学習目的(損失関数)を統合して、潜在空間が生成に有用な知識を持つよう誘導するものです。
つまり、再構成だけでなく「意味」や「構造」も同時に学習させる設計意図です。
学習フレームワークの構成
VTP は以下の 3 つの目的関数を統合する構造になっています。
再構成損失
元画像と再構成画像の誤差を減らすため、ピクセルレベルの復元性能向上を目的とします。
これは従来のトークナイザー学習でも一般的な損失です。
自己教師あり学習
- マスク画像モデリング(MIM)
- セルフディスティレーション
これらは、ネットワークが空間的な意味や構造を潜在表現に取り込めるよう補助します。
対照学習
画像とテキストの対応関係を学習することで、潜在空間が 意味的セマンティクス(semantic understanding) を反映するようになります。
これが単なる再構成には含まれない情報です。
なぜこの方法が効果的なのか
統合された学習は、単一の目的関数よりも 潜在空間の表現力と生成能力を向上させることが期待できます。
ポイント:
- 再構成だけでなく、意味理解・視覚的特徴学習を同時に行える
- 潜在空間の品質が生成結果に直結
- 学習規模(モデルサイズ・FLOPs・データ)を増やすと生成性能が継続的に向上する
実験と結果
ImageNet 上で VTP フレームワークを用いた大規模学習を実施し、以下のような知見を得ています。
- 主な成果
- 再構成性能と生成性能が同時に改善
- 従来手法(再構成のみ)では生成性能が飽和する一方で、VTP では学習規模に応じて生成品質が向上
- ImageNet で評価した際に高い生成品質とゼロショット分類性能を同時に達成
まとめ
きれいな画像をつくることと精巧な画像をつくることの区別をしたという点が発見なのかと感じました。
再構成だけでなく意味理解や構造の学習を事前に行うという手間をかける(単なる再構成にもこのような学習は期待されているような気もする)ことで、人が見たときの矛盾が減るような結果は期待できそう。


