1. 概要
トランスフォーマーを用いた拡散モデル(Diffusion Models with Transformers)の新しいアーキテクチャを提案している。通常はU-Netをバックボーンとして使用し潜在空間でパッチ毎にトランスフォーマーで演算をするが、この部分をシーケンスに変換するDiffution Transformers Block(DiT-block)を新たに提案しており、従来手法と比べて潜在空間上で高い表現力を獲得できるようにした。ImageNet512/256のベンチマークで従来の拡散モデルよりも高精度な2.27のFIDを達成している。
2. 新規性
Diffusion Transformers(DiT, 拡散トランスフォーマー)を提案しており、通常IxIxCで構成されるパッチをT=(I/p)^2の長さのシーケンスにシェイプ変換するDiT Blockを挿入することで、小さなパッチであっても長いシーケンスを構築することができ表現力を増す効果がある。
3. 実現方法
入力の潜在表現はパッチに分解されていくつかのDiT-Blockで処理される。各Dit-Blockでは、制約条件をMLPで特徴抽出し、その特徴をレイヤーごとに挿入する適応的レイヤーノルムのアプローチが、クロスアテンションや追加のトークンを介した手法よりも精度が高かったため、これを採用している。
4. 結果
円の大きさは拡散モデルのflopsを表している。左図は円が小さいほど精度が高いことを示す。モデルのGflopsが増加するほど性能は安定していくことが分かった。
また、右図では提案手法が従来のU-Netベースの拡散モデル(ADM/LDM)と比べて計算効率が高く高精度であることを示している。
トランスフォーマーの深さ/幅を増やしてモデルのGflopsを増やすことで、パッチサイズが小さくなりトークンのDit-Blockで長さが長くなるため内部表現力が増し、視覚的な精度が急激に向上することが分かる。
左図はGflopsとFIDの関係性を示しており、強い正の相関がみられる。右図はDiTのモデルが大きくなると計算効率が向上していくことを示している。
last updates: Nov 24 2023