書誌情報
タイトル:High-Resolution Image Synthesis with Latent Diffusion Models
著者:Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer
学会:CVPR 2022
URL:https://arxiv.org/abs/2112.10752
内容:Stable Diffusionの元論文。画像生成において、拡散モデルがSOTAになりつつある。しかし、従来の拡散モデルはピクセル空間 (RGBなど) でサンプリングを行うので、計算量が大きい。その品質や精度を保ったまま、拡散モデルを限られた計算資源で訓練できるように、潜在空間上で拡散モデルを適用するLatent Diffusion Model (LDM) を提案している。テキストからの画像生成や画像生成 (条件の有無に関わらず) 、超解像などのタスクで、従来の拡散モデルに匹敵するスコアを達成した。
Abstract
画像形成プロセスをデノイジングオートエンコーダーの順次適用に分解することで、拡散モデル(DM)は画像データとそれ以外のデータで最先端の合成結果を達成しています。さらに、それらの定式化により、再トレーニングなしに画像生成プロセスを制御するための案内メカニズムが可能になります。しかし、これらのモデルは通常ピクセル空間で直接動作するため、強力なDMの最適化には数百のGPU日が消費され、逐次評価のための推論にコストがかかります。限られた計算リソースでDMのトレーニングを可能にしつつ、品質と柔軟性を維持するために、強力な事前トレーニング済みオートエンコーダーの潜在空間にDMを適用します。以前の研究とは対照的に、このような表現でのDMのトレーニングにより、初めて複雑さの削減と詳細の保持の間の最適点に近づくことができ、視覚的な忠実度が大幅に向上します。モデルアーキテクチャにクロスアテンション層を導入することで、DMを強力で柔軟な、テキストやバウンディングボックスなどの一般的な条件付け入力に対するジェネレーターに変換し、高解像度の合成が畳み込み方式で可能になります。私たちの潜在拡散モデル(LDM)は、画像の修復とクラス条件付き画像合成において新しい最先端のスコアを達成し、テキストから画像への合成、無条件の画像生成、超解像度を含むさまざまなタスクで非常に競争力のある性能を示しています。ピクセルベースのDMと比較して、計算要件を大幅に削減しています。
1. Introduction
画像合成は、最近の発展が最も目覚ましいコンピュータービジョン分野の1つですが、最も大きな計算要求を持つ分野の1つでもあります。特に、複雑で自然なシーンの高解像度合成は現在、自己回帰(AR)トランスフォーマー [66,67] の数十億のパラメーターを含む可能性のある尤度ベースのモデルのスケールアップによって支配されています。対照的に、GAN [3, 27, 40] の有望な結果は、敵対的学習手順が複雑で多峰性の分布のモデリングに容易に拡張できないため、比較的変動性の限られたデータにほとんど限定されていることが明らかにされています。最近、デノイジングオートエンコーダーの階層から構築される拡散モデル [82] は、画像合成 [30,85] とそれ以外 [7,45,48,57] で印象的な結果を達成し、クラス条件付き画像合成 [15,31] と超解像度 [72] で最先端を定義することが示されました。さらに、無条件のDMでさえ、他のタイプの生成モデル [19,46,69] とは対照的に、修復や色付け [85]、ストロークベースの合成 [53] などのタスクにも容易に適用できます。尤度ベースのモデルであるDMは、GANのようなモード崩壊やトレーニングの不安定性を示さず、パラメーター共有を大幅に利用することで、ARモデル [67] のような数十億のパラメーターを含まずに、自然画像の非常に複雑な分布をモデル化できます。
高解像度画像合成の民主化 DMは、知覚できないデータの詳細をモデル化するために過剰な容量(したがって計算リソース)を費やす傾向がある尤度ベースのモデルのクラスに属します [16, 73]。初期のデノイジングステップをアンダーサンプリングすることを目的とした再重み付け変分目的関数 [30] がこれに対処することを目的としていますが、DMはまだ計算量を要します。なぜなら、そのようなモデルのトレーニングと評価には、RGB画像の高次元空間での反復関数評価(および勾配計算)が必要だからです。例として、最も強力なDMのトレーニングには数百のGPU日(例えば、[15]では150〜1000のV100日)かかることが多く、入力空間のノイズ版に対する反復評価により、推論にもコストがかかります。50kサンプルの生成に約5日かかるため、単一のA100 GPUを使用した場合[15]、研究コミュニティとユーザー全般に2つの影響があります。第一に、そのようなモデルの学習には、分野の一部のみが利用可能な大規模な計算リソースが必要であり、膨大なカーボンフットプリントを残します[65, 86]。第二に、既に学習済みのモデルを評価するには、同じモデルアーキテクチャを多数のステップ(例えば、[15]では25〜1000ステップ)で順次実行する必要があるため、時間とメモリの面でコストがかかります。
このような強力なモデルクラスのアクセシビリティを高め、同時に大幅なリソース消費を削減するには、学習とサンプリングの両方の計算量を削減する手法が必要です。性能を損なうことなくDMの計算要求を削減することは、それらのアクセシビリティを高めるための鍵となります。
潜在空間への出発
私たちのアプローチは、ピクセル空間ですでに学習済みの拡散モデルの分析から始まります。図2は、学習済みモデルのレート-歪みトレードオフを示しています。尤度ベースのモデルと同様に、学習は大まかに2つの段階に分けられます。第一段階は知覚的圧縮段階で、高周波数の詳細を除去しますが、意味的なバリエーションはほとんど学習しません。第二段階では、実際の生成モデルがデータの意味的および概念的な構成を学習します(意味的圧縮)。したがって、私たちは、高解像度の画像合成のための拡散モデルを学習する、知覚的に等価でありながら計算上より適切な空間を最初に見つけることを目指します。
一般的な慣例に従って[11, 23, 66, 67, 96]、学習を2つの明確なフェーズに分けます。 最初に、データ空間に知覚的に等価な、より低次元(したがって効率的な)表現空間を提供するオートエンコーダーを学習します。重要なことは、以前の研究[23, 66]とは対照的に、学習した潜在空間で拡散モデル(DM)を学習するため、空間次元に関してより優れたスケーリング特性を示すので、過度の空間圧縮に頼る必要がないことです。複雑さが減少することで、潜在空間から単一のネットワークパスで効率的な画像生成も可能になります。 私たちは、結果として得られるモデルクラスを潜在拡散モデル(LDM)と呼んでいます。
このアプローチの注目すべき利点は、汎用オートエンコーディング段階を一度だけ学習すればよく、したがって、複数のDM学習や、おそらく全く異なるタスク[81]の探索に再利用できることです。これにより、画像間タスクやテキストから画像へのタスクなど、多様な拡散モデルを効率的に探索できます。後者については、トランスフォーマーをDMのUNetバックボーン[71]に接続し、任意のタイプのトークンベースの条件付けメカニズムを可能にするアーキテクチャを設計しました(セクション3.3を参照)。
要約すると、本研究は以下の貢献をしています。 (i) 純粋にトランスフォーマーベースのアプローチ[23, 66]とは対照的に、私たちの手法は高次元のデータにより優雅にスケールするため、(a) 以前の研究よりも忠実で詳細な再構成を提供する圧縮レベルで機能し(図1を参照)、(b) メガピクセル画像の高解像度合成に効率的に適用できます。 (ii) 無条件画像合成、インペインティング、確率的超解像など、複数のタスクとデータセットで競争力のある性能を達成しつつ、計算コストを大幅に削減しています。ピクセルベースの拡散アプローチと比較して、推論コストも大幅に削減しています。 (iii) エンコーダ/デコーダアーキテクチャとスコアベースの事前分布の両方を同時に学習する以前の研究[93]とは対照的に、私たちのアプローチでは、再構成能力と生成能力の微妙な重み付けが不要であることを示しています。 これにより、非常に忠実な再構成が保証され、潜在空間の正則化にはほとんど必要ありません。 (iv) 超解像、インペインティング、意味的合成などの密に条件付けされたタスクでは、私たちのモデルを畳み込み方式で適用でき、∼10242ピクセルの大きくて一貫した画像をレンダリングできることがわかりました。 (v) さらに、クロスアテンションに基づく汎用の条件付けメカニズムを設計し、マルチモーダル学習を可能にしました。これを使用して、クラス条件付き、テキストから画像へ、レイアウトから画像へのモデルを学習します。 (vi) 最後に、DM[81]の学習以外のさまざまなタスクに再利用できる、学習済みの潜在拡散モデルとオートエンコーディングモデルをhttps://github.com/CompVis/latent-diffusionでリリースしています。
2. 関連研究
画像合成のための生成モデル 画像の高次元性は、生成モデリングに特有の課題を提示します。敵対的生成ネットワーク(GAN)[27]は、知覚品質の良い高解像度画像を効率的にサンプリングできますが[3, 42]、学習が難しく、モード崩壊の問題があります[2]。
最適化が難しく[2, 28, 54]、データ分布全体を捉えるのに苦労している[55]GANとは対照的に、尤度ベースの手法は良好な密度推定を重視し、最適化をより適切に行う。変分オートエンコーダー(VAE)[46]とフローベースのモデル[18, 19]は高解像度画像の効率的な合成を可能にする[9, 44, 92]が、サンプル品質はGANに及ばない。自己回帰モデル(ARM)[6, 10, 94, 95]は密度推定で高い性能を達成するが、計算量の多いアーキテクチャ[97]と逐次的なサンプリングプロセスにより、低解像度の画像に限定される。画像のピクセルベースの表現にはほとんど知覚できない高周波の詳細が含まれているため[16, 73]、最尤推定によるトレーニングではそれらのモデリングに不釣り合いな能力が費やされ、トレーニング時間が長くなる。より高い解像度に拡張するために、いくつかの2段階アプローチ[23, 67, 101, 103]では、生のピクセルの代わりに圧縮された潜在画像空間をモデル化するためにARMを使用している。
最近、Diffusion Probabilistic Models (DM) [82]は、密度推定[45]とサンプル品質[15]の両方で最先端の結果を達成している。これらのモデルの生成力は、基礎となるニューラルバックボーンがUNet[15, 30, 71, 85]として実装されている場合に、画像のようなデータの帰納バイアスに自然に適合することに由来する。最良の合成品質は、通常、再重み付け目的関数[30]がトレーニングに使用される場合に達成される。この場合、DMは非可逆圧縮機に相当し、画質と圧縮能力のトレードオフが可能になる。しかし、ピクセル空間でこれらのモデルを評価および最適化することは、推論速度が低く、トレーニングコストが非常に高いという欠点がある。前者は高度なサンプリング戦略[47, 75, 84]と階層的アプローチ[31, 93]である程度対処できるが、高解像度の画像データでのトレーニングは常に高価な勾配計算を必要とする。私たちは、より低次元の圧縮された潜在空間で機能する提案されたLDMを使用して、両方の欠点に対処する。これにより、トレーニングが計算上安価になり、合成品質をほとんど低下させずに推論が高速化される(図1を参照)。
2段階画像合成
個々の生成アプローチの欠点を緩和するために、多くの研究[11, 23, 67, 70, 101, 103]が、2段階アプローチを介して、さまざまな手法の長所をより効率的でパフォーマンスの高いモデルに組み合わせることに費やされている。 VQ-VAE[67, 101]は、離散化された潜在空間に対する表現力豊かな事前分布を学習するために自己回帰モデルを使用する。 [66]は、離散化された画像とテキストの表現に対する結合分布を学習することにより、このアプローチをテキストから画像への生成に拡張する。より一般的に、[70]は条件付き可逆ネットワークを使用して、多様なドメインの潜在空間間の一般的な転送を提供する。 VQ-VAEとは異なり、VQGAN[23, 103]は、敵対的および知覚的目的を持つ第1段階を採用して、自己回帰トランスフォーマーをより大きな画像に拡張する。ただし、数十億のトレーニング可能なパラメータ[23, 66]を導入する実現可能なARMトレーニングに必要な高い圧縮率は、このようなアプローチの全体的なパフォーマンスを制限し、圧縮率を下げると高い計算コスト[23, 66]が必要になる。私たちの研究では、提案されたLDMが畳み込みバックボーンにより高次元の潜在空間により穏やかに拡張されるため、そのようなトレードオフを防ぐ。したがって、私たちは、生成拡散モデルに知覚的圧縮をあまり残さずに、強力な第1段階を学習する最適なレベルの圧縮を自由に選択でき、高忠実度の再構成を保証できる(図1を参照)。
エンコード/デコードモデルをスコアベースの事前分布と共同で[93]または個別に[80]学習するアプローチが存在する一方で、前者はまだ再構成能力と生成能力のバランスが難しく[11]、私たちのアプローチによって上回られ(セクション4)、後者は人間の顔のような高度に構造化された画像に焦点を当てている。
3. Method
高解像度の画像合成に向けた拡散モデルのトレーニングの計算要求を下げるために、拡散モデルは対応する損失項を不足サンプリングすることで知覚的に無関係な詳細を無視できるが[30]、それでもピクセル空間で高価な関数評価を必要とし、計算時間とエネルギーリソースに大きな需要を引き起こすことに注目する。
私たちは、圧縮学習フェーズと生成学習フェーズを明示的に分離することで、この欠点を回避することを提案する(図2を参照)。これを達成するために、私たちは、画像空間と知覚的に同等であるが、計算複雑度が大幅に削減された空間を学習する自動符号化モデルを利用する。
このようなアプローチにはいくつかの利点がある。(i)高次元の画像空間を離れることで、サンプリングが低次元の空間で実行されるため、計算上はるかに効率的なDMを得る。 (ii)UNetアーキテクチャ[71]から継承されたDMの帰納バイアスを利用する。これにより、空間構造を持つデータに対して特に効果的になり、以前のアプローチ[23, 66]で必要とされる品質低下を伴う強圧縮レベルの必要性が軽減される。 (iii)最後に、潜在空間を使用して複数の生成モデルをトレーニングでき、単一画像のCLIPガイド合成[25]などの他のダウンストリームアプリケーションにも利用できる汎用圧縮モデルを取得する。
3.1. 知覚的画像圧縮
私たちの知覚的圧縮モデルは、以前の研究[23]に基づいており、知覚的損失[106]とパッチベース[33]の敵対的目的[20, 23, 103]の組み合わせによってトレーニングされたオートエンコーダーで構成される。これにより、局所的なリアリズムを適用することで再構成が画像マニホールドに限定され、L2やL1目的などのピクセル空間の損失のみに依存することで導入されるぼやけを回避する。
より正確には、RGB空間の画像x∈RH×W×3が与えられると、エンコーダーEはxを潜在表現にエンコードする。
tion z = E(x)とし、デコーダーDは潜在空間から画像を再構成し、˜x = D(z) = D(E(x))とする。ここで、z ∈ Rh×w×cである。重要なのは、エンコーダーが画像をf = H/h = W/wの因子で縮小することである。そして、異なるダウンサンプリング因子f = 2m(m ∈ N)について調査する。 潜在空間の分散が恣意的に高くなることを避けるために、2種類の正則化を実験する。1つ目の変種であるKL-reg.は、VAE[46, 69]と同様に、学習された潜在変数に対して標準正規分布へのわずかなKLペナルティを課す。一方、VQ-reg.はデコーダー内にベクトル量子化層[96]を使用する。このモデルは、量子化層がデコーダーに吸収されたVQGAN[23]として解釈できる。その後のDMは、学習された潜在空間z = E(x)の2次元構造を使用するように設計されているため、比較的緩やかな圧縮率を使用しても、非常に良好な再構成が可能である。これは、学習された空間zの任意の1次元順序に依存してその分布を自己回帰的にモデル化し、zの固有の構造の多くを無視した以前の研究[23, 66]とは対照的である。したがって、我々の圧縮モデルはxの詳細をより良く保持する(表8参照)。目的関数の全体と学習の詳細は補足資料に記載されている。
3.2. 潜在拡散モデル
拡散モデル[82]は、正規分布した変数を徐々に雑音除去することによってデータ分布p(x)を学習するように設計された確率モデルであり、これは長さTの固定マルコフ連鎖の逆過程を学習することに相当する。画像合成では、最も成功しているモデル[15,30,72]は、雑音除去スコアマッチング[85]を反映したp(x)の変分下限の重み付き変種に依存している。 これらのモデルは、εθ(xt, t); t = 1 . . . Tの等しく重み付けされた一連の雑音除去オートエンコーダとして解釈できる。ここで、xtは入力xのノイズ付きバージョンであり、各オートエンコーダは入力xtの雑音除去バージョンを予測するようにトレーニングされる。対応する目的関数は以下のように簡略化できる(セクションB)。
L_{DM} = \mathbb{E}_{x, \epsilon \sim \mathcal{N}(0,1), t}[\|\epsilon-\epsilon_\theta(x_t, t)\|^2_2],
ここで、tは{1, . . . , T}から一様にサンプリングされる。
潜在表現の生成モデリング 学習された知覚圧縮モデルEとDを用いることで、高周波で知覚不可能な詳細が抽象化された効率的な低次元潜在空間にアクセスできるようになった。高次元のピクセル空間と比較して、この空間は尤度ベースの生成モデルにより適している。なぜなら、(i)データの重要で意味のある部分に集中でき、(ii)より低次元で計算効率の高い空間で学習できるからである。 高度に圧縮された離散潜在空間で自己回帰的な注意ベースのトランスフォーマーモデルに依存していた以前の研究[23,66,103]とは異なり、我々のモデルが提供する画像特有の帰納バイアスを利用することができる。これには、基礎となるUNetを主に2次元畳み込み層から構築する能力と、重み付き境界を使用して目的関数を知覚的に最も関連性の高いビットにさらに集中させることが含まれる。
L_{LDM} := \mathbb{E}_{\varepsilon(x), \epsilon \sim \mathcal{N}(0,1), t}[\|\epsilon-\epsilon_\theta(z_t, t)\|^2_2] .
我々のモデルのニューラルバックボーンεθ(◦, t)は、時間条件付きUNet[71]として実現される。順方向のプロセスが固定されているため、学習中にEからztを効率的に取得でき、p(z)からのサンプルは単一のDを通過することで画像空間にデコードできる。
3.3. 条件付けメカニズム
他のタイプの生成モデル[56, 83]と同様に、拡散モデルは原理的にp(z|y)の形式の条件付き分布をモデル化できる。これは、条件付き雑音除去オートエンコーダεθ(zt, t, y)で実装でき、テキスト[68]、セマンティックマップ[33,61]、その他の画像間変換タスク[34]などの入力yを通じて合成プロセスを制御する道を開く。 しかし、画像合成の文脈では、DMの生成力をクラスラベル[15]や入力画像のぼやけたバリエーション[72]以外の他のタイプの条件付けと組み合わせることは、これまでのところ研究があまり行われていない領域である。 我々は、DMの基礎となるUNetのバックボーンをクロス注意メカニズム[97]で拡張することで、DMをより柔軟な条件付き画像生成器に変換する。クロス注意メカニズムは、様々な入力モダリティ[35,36]の注意ベースのモデルを学習するのに効果的である。言語プロンプトなどの様々なモダリティからyを前処理するために、yを中間表現τθ(y)∈RM×dτに射影するドメイン固有のエンコーダτθを導入する。τθ(y)は、以下を実装するクロス注意層を介してUNetの中間層にマッピングされる。
Attention(Q, K, V) = softmax(QKT / √d) · V,
ここで、 Q = W(i)Q · φi(zt), K = W(i)K · τθ(y), V = W(i)V · τθ(y) である。φi(zt)∈RN×diεは、εθを実装するUNetの(平坦化された)中間表現を表し、W(i)V∈Rdτ×dv
Rd×di、ϵ、W (i) Q ∈Rd×dτ とW (i) K ∈Rd×dτは学習可能な射影行列である[36,97]。図3に視覚的な説明がある。 画像-条件付けペアに基づいて、以下の式により条件付きLDMを学習する。 LLDM := EE(x),y,ϵ∼N (0,1),t h ∥ϵ−ϵθ(zt, t, τθ(y))∥2 2 i , (3) ここでτθとϵθは両方ともEq.3を通じて共同で最適化される。この条件付け機構は柔軟で、τθはドメイン固有の専門家、例えばyがテキストプロンプトである場合は(マスクされていない)トランスフォーマー[97]でパラメータ化できる(セクション4.3.1を参照)。
4. 実験
LDMは様々な画像モダリティの柔軟で計算上扱いやすい拡散ベースの画像合成の手段を提供する。これを以下で経験的に示す。 しかし最初に、ピクセルベースの拡散モデルと比較して、学習と推論の両方におけるモデルの利点を分析する。興味深いことに、VQ正則化された潜在空間で学習されたLDMは、VQ正則化された第1段階モデルの再構成能力が連続モデルよりもわずかに劣るにもかかわらず、時にはより良いサンプル品質を達成することがわかった(表8を参照)。第1段階の正則化スキームがLDMの学習とその解像度>2562への一般化能力に与える影響の視覚的比較は、付録D.1にある。E.2では、このセクションで示されたすべての結果のアーキテクチャ、実装、学習、評価の詳細を示す。
4.1. 知覚的圧縮のトレードオフについて
このセクションでは、f∈{1, 2, 4, 8, 16, 32}の異なるダウンサンプリング係数(LDM-fと略記。LDM-1はピクセルベースのDMに対応)を持つLDMの振る舞いを分析する。比較可能なテストフィールドを得るために、このセクションのすべての実験で計算リソースを単一のNVIDIA A100に固定し、すべてのモデルを同じステップ数で同じパラメータ数で学習する。 表8は、このセクションで比較するLDMに使用される第1段階モデルのハイパーパラメータと再構成性能を示している。図6は、ImageNet[12]データセットでのクラス条件付きモデルの200万ステップの学習進行に伴うサンプル品質を示している。ここから、i)LDM-{1,2}の小さなダウンサンプリング係数は学習の進行を遅くし、ii)fの過度に大きな値は比較的少ない学習ステップ後の忠実度の停滞を引き起こすことがわかる。上記の分析(図1と2)を再訪すると、これは i)知覚的圧縮のほとんどを拡散モデルに任せることと、ii)第1段階の圧縮が強すぎて情報が失われ、達成可能な品質が制限されることに起因すると考えられる。LDM-{4-16}は、効率と知覚的に忠実な結果のバランスを適切に取っており、これは200万ステップの学習後のピクセルベースの拡散(LDM-1)とLDM-8の間のFID[29]の38という大きな差に現れている。
図7では、CelebA-HQ[39]とImageNetで学習したモデルを、DDIMサンプラー[84]を使用した異なるデノイジングステップ数でのサンプリング速度を比較し、FIDスコア[29]に対してプロットしている。 LDM-{4-8}は、知覚的圧縮と概念的圧縮の比率が不適切なモデルよりも優れた性能を示す。特にピクセルベースのLDM-1と比較して、サンプルのスループットを大幅に向上させながら、FIDスコアをはるかに低くすることができる。ImageNetのような複雑なデータセットでは、品質を低下させないために圧縮率を下げる必要がある。要約すると、LDM-4と-8は高品質の合成結果を達成するのに最適な条件を提供する。
4.2. 潜在拡散を用いた画像生成
CelebA-HQ [39]、FFHQ [41]、LSUN-Churches、LSUN-Bedrooms [102]の2562画像の無条件モデルを学習し、i)サンプル品質とii)データ多様体のカバレッジをii)FID [29]とii)Precision-and-Recall [50]で評価する。表1に結果をまとめる。CelebA-HQでは、5.11という新しいSOTAのFIDを報告し、以前の尤度ベースのモデルやGANを上回る性能を示した。また、潜在拡散モデルを第1段階と共同で学習するLSGM [93]よりも優れた性能を示した。対照的に、本研究では固定された空間で拡散モデルを学習する。
LAION上のテキストから画像への合成。1.45Bモデル。 '「潜在拡散」と書かれた 道路標識 ' 'ピカソ風の ゾンビ' '半分がネズミで半分がタコの 動物の画像' 'ほんの少し意識のある ニューラルネットワークのイラスト' 'ハンバーガーを食べている リスの絵' 'タコのように見える椅子の 水彩画' '「生成モデルが大好き!」 と書かれたシャツ'
図5. LAION [78]データベース上で学習されたテキストから画像への合成モデルLDM-8 (KL)における、ユーザー定義のテキストプロンプトに対するサンプル。200ステップのDDIMとη= 1.0で生成。無条件ガイダンス[32]をs = 10.0で使用。
図6. ImageNetデータセット上で200万ステップ学習した際の、異なるダウンサンプリング率fでのクラス条件付きLDMの学習を分析。ピクセルベースのLDM-1は、ダウンサンプリング率が大きいモデル(LDM-{4-16})と比べ、かなり長い学習時間を要する。LDM-32のように知覚圧縮が大きすぎると、全体的なサンプル品質が制限される。全モデルは同じ計算リソースで単一のNVIDIA A100上で学習。結果は100ステップのDDIM [84]とκ= 0で得られた。
図7. CelebA-HQ(左)とImageNet(右)データセットにおける、圧縮率の異なるLDMの比較。異なるマーカーは、右から左へ各線に沿って、DDIMを用いた{10, 20, 50, 100, 200}のサンプリングステップを示す。破線は200ステップでのFIDスコアを示し、LDM-{4-8}の高い性能を示している。FIDスコアは5000サンプルで評価。全モデルはA100上で500k (CelebA) / 2M (ImageNet)ステップ学習。
再構成品質と潜在空間上の事前分布の学習とのトレードオフの難しさを避けるために、潜在変数zを直接モデル化する(図1-2参照)。 LSUN-Bedroomsデータセットを除く全データセットにおいて、以前の拡散ベースの手法を上回る性能を示した。LSUN-Bedroomsでは、パラメータ数が半分で学習リソースが4分の1のADM [15]にスコアが近い(付録E.3.5参照)。
表1. 無条件画像生成の評価指標。CelebA-HQの結果は[43, 63, 100]、FFHQは[42, 43]から再現。†: N-sはDDIM [84]サンプラーを用いたNサンプリングステップを指す。∗: KL正則化潜在空間で学習。追加の結果は補足資料に記載。
テキスト条件付き画像合成
表2. 256×256サイズのMS-COCO [51]データセットにおけるテキスト条件付き画像生成の評価。250ステップのDDIM [84]を用いたモデルは、かなり少ないパラメータ数にもかかわらず、最新の拡散[59]および自己回帰[26]手法と同等の性能を示す。†/∗:[109]/ [26]の数値。
さらに、LDMはGANベースの手法と比較して、PrecisionとRecallにおいて一貫して優れており、敵対的アプローチに対する尤度ベースの学習目的関数のモード網羅性の利点を確認した。図4では各データセットの定性的な結果も示している。
図8. COCO[4]におけるLDMを用いたレイアウト-画像合成、4.3.1項参照。定量的評価は補足資料D.3に記載。
4.3. 条件付き潜在拡散
4.3.1 LDMのためのTransformerエンコーダー
LDMに注意機構ベースの条件付けを導入することで、これまで拡散モデルでは探索されていなかった様々な条件付けの様式に対して開かれることになる。テキストから画像への画像モデリングでは、LAION-400M[78]上で言語プロンプトを条件とした14.5億パラメータのKL正則化LDMを学習する。BERT-tokenizer[14]を用いて、τθをTransformer[97]として実装し、潜在コードを推論し、それを(マルチヘッド)クロスアテンション(3.3項)を介してUNetにマッピングする。言語表現と視覚的合成を学習するためのドメイン固有の専門家のこの組み合わせは、複雑でユーザー定義のテキストプロンプトによく一般化する強力なモデルとなっている(図8、5参照)。定量的分析のために、MS-COCO[51]検証セットでのテキスト-画像生成について、先行研究に倣って評価を行い、本モデルは強力なAR[17,66]やGANベース[109]の手法を上回った(表2参照)。なお、分類器フリーの拡散ガイダンス[32]を適用することで、サンプルの品質が大幅に向上し、ガイド付きLDM-KL-8-Gは、テキストから画像への合成において、最近の最先端のAR[26]や拡散モデル[59]と同等となり、パラメータ数を大幅に削減できることに注意されたい。クロスアテンションベースの条件付けメカニズムの柔軟性をさらに分析するために、OpenImages[49]におけるセマンティックレイアウトに基づく画像合成のモデルも学習し、COCO[4]でファインチューニングした(図8参照)。定量的評価と実装の詳細については、D.3項を参照のこと。
最後に、先行研究[3,15,21,23]に倣い、4.1項のf∈{4,8}を用いた最高性能のクラス条件付きImageNetモデルを表3、図4、D.4項で評価する。ここでは最先端の拡散モデルADM[15]を上回りつつ、計算要件とパラメータ数を大幅に削減している(表18参照)。
4.3.2 256^2を超える畳み込みサンプリング
LDMは、空間的に整列した条件付け情報をϵθの入力に連結することで、効率的な汎用画像-画像変換モデルとして機能する。これを用いて、セマンティック合成、超解像(4.4項)、インペインティング(4.5項)のモデルを学習する。セマンティック合成では、風景画像とセマンティックマップ[23,61]のペアを使用し、f=4モデル(VQ-reg.、表8参照)の潜在画像表現にセマンティックマップのダウンサンプル版を連結する。2562の入力解像度(3842からのクロップ)で学習するが、本モデルはより大きな解像度に一般化でき、畳み込み方式で評価するとメガピクセルレジームまでの画像を生成できることがわかった(図9参照)。この動作を利用して、4.4項の超解像モデルや4.5項のインペインティングモデルにも適用し、5122から10242の大きな画像を生成する。このアプリケーションでは、(潜在空間のスケールによって誘発される)信号対雑音比が結果に大きく影響する。D.1項では、(i)f=4モデル(KL-reg.、表8参照)によって提供される潜在空間上でLDMを学習した場合と、(ii)成分ごとの標準偏差でスケーリングしたバージョンでLDMを学習した場合について説明している。
後者は、分類器フリーのガイダンス[32]と組み合わせることで、図13のようにテキスト条件付きLDM-KL-8-Gで2562以上の画像を直接合成できるようになる。
図9. 2562解像度で学習されたLDMは、風景画像のセマンティック合成などの空間的に条件付けられたタスクに対して、より大きな解像度(ここでは512×1024)に一般化できる。4.3.2項参照。
4.4. 潜在拡散による超解像
LDMは、低解像度の画像を直接連結することで条件付けることにより、超解像のために効率的に学習できる(3.3項参照)。最初の実験では、SR3に倣って、
図10は、ImageNet 64→256のスーパーリゾリューションの結果を示しています。LDM-SRは現実的なテクスチャを描写するのに優れていますが、SR3はより一貫性のある細かい構造を合成することができます。追加のサンプルとクロップアウトについては付録を参照してください。SR3の結果は[72]から引用しています。
[72]では、画像の劣化をバイキュービック補間で4倍ダウンサンプリングしたものに固定し、SR3のデータ処理パイプラインに従ってImageNetで学習しています。我々は、OpenImages上で事前学習したf=4のオートエンコーダーモデル(VQ-reg.、表8参照)を使用し、低解像度の条件yとUNetへの入力を連結します。つまり、τθはidentityです。定性的および定量的な結果(図10と表5参照)は、競争力のあるパフォーマンスを示しており、LDM-SRはFIDでSR3を上回りますが、SR3はISの方が優れています。単純な画像回帰モデルが最高のPSNRとSSIMスコアを達成しています。しかし、これらの指標は人間の知覚とはあまり一致せず[106]、不完全に整列した高周波の詳細よりもぼやけを優先します[72]。
さらに、ピクセルベースラインとLDM-SRを比較するユーザー調査を実施しました。SR3[72]に倣い、低解像度の画像を2つの高解像度画像の間に表示し、被験者に好みを尋ねました。表4の結果は、LDM-SRの良好なパフォーマンスを裏付けています。PSNRとSSIMは、事後的なガイディングメカニズム[15]を使用することで押し上げることができ、このイメージベースのガイダーを知覚的損失を介して実装しました(セクションD.6を参照)。
バイキュービック劣化プロセスは、この前処理に従わない画像には適用できないため、より多様な劣化を使用して汎用モデルLDM-BSRも学習しました。結果はセクションD.6.1に示されています。
入力 結果 図11. 大規模で微調整された修復モデルを用いたオブジェクト除去の定性的結果。より多くの結果については、図22を参照。 トレーニング後、解像度2562と5122で生成されたサンプルの品質に不一致があることに気づきました。これは追加の注意モジュールが原因であると推測しています。しかし、解像度5122でモデルを半エポック微調整することで、モデルは新しい特徴統計に適応し、画像修復におけるFIDの新しい最先端の結果を設定することができます(表7、図11の大規模、注意なし、微調整ありを参照)。
5. 限界と社会的影響
限界
LDMはピクセルベースのアプローチと比較して計算要件を大幅に削減しますが、その逐次サンプリングプロセスはGANよりもまだ遅いです。さらに、高精度が要求される場合、LDMの使用は疑問視されることがあります。f=4のオートエンコーディングモデル(図1参照)では画質の損失は非常に小さいですが、ピクセル空間で細かい精度を必要とするタスクでは、その再構成能力がボトルネックになる可能性があります。私たちは、超解像度モデル(セクション4.4)がこの点ですでにある程度制限されていると考えています。
社会的影響
画像のようなメディアの生成モデルは諸刃の剣です。一方で、さまざまなクリエイティブなアプリケーションを可能にし、特にトレーニングと推論のコストを削減する私たちのアプローチは、この技術へのアクセスを容易にし、その探索を民主化する可能性があります。 一方で、操作されたデータを作成・普及したり、誤情報やスパムを広めたりすることも容易になります。特に、画像の意図的な操作(「ディープフェイク」)はこの文脈で一般的な問題であり、特に女性が不釣り合いな影響を受けています[13,24]。
生成モデルはトレーニングデータを明らかにすることもあります[5,90]。これは、データに機密情報や個人情報が含まれていて、明示的な同意なく収集された場合に大きな懸念事項となります。ただし、これが画像のDMにもどの程度当てはまるかは、まだ完全には理解されていません。
最後に、深層学習モジュールは、すでにデータに存在するバイアスを再現または悪化させる傾向があります[22,38,91]。拡散モデルはGANベースのアプローチなどと比較してデータ分布のより良いカバレッジを達成しますが、敵対的学習と尤度ベースの目的関数を組み合わせた私たちの2段階アプローチがデータを誤って表現する程度は、重要な研究課題のままです。
深層生成モデルの倫理的考察に関するより一般的で詳細な議論については、[13]などを参照してください。
6. 結論
品質を低下させることなく、ノイズ除去拡散モデルのトレーニングとサンプリングの効率を大幅に改善する、シンプルで効率的な方法である潜在拡散モデルを提案しました。これと私たちのクロスアテンション条件付けメカニズムに基づいて、タスク固有のアーキテクチャを使用せずに、幅広い条件付き画像合成タスクにおいて最先端の手法と比較して好ましい結果を示すことができました。
本研究は、「KI-Absicherung - Safe AI for automated driving」プロジェクト内の経済エネルギー省連邦省、およびドイツ研究振興協会(DFG)プロジェクト421703927の支援を受けています。
TODO
- 文章内容の整合性確認
- 翻訳を正確にする
- Appendixの翻訳も追加する