Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion(Adobe Research, 2025)
3行要約
- ✨ Self Forcingは、自己回帰型動画拡散モデルのトレーニング時に、推論時と同様に以前に自己生成したフレームをコンテキストとして用いることで、教師あり学習と推論の分布のギャップ(exposure bias)を解消する新しい手法です。
- 💾 トレーニング中の自己回帰ロールアウトにKey-Value (KV) キャッシングを導入し、生成プロセス全体に対するビデオレベルの損失で監督することで、エラーの蓄積を効果的に軽減します。
- 🚀 本手法により、単一GPUでリアルタイムストリーミング動画生成に必要なサブセカンドの低レイテンシと高スループットを実現し、既存手法を上回る生成品質を達成しました。
Q:この論文の概要を教えてください
A:
本論文は、自己回帰(Autoregressive, AR)ビデオ拡散モデルにおける学習時と推論時の分布の乖離、すなわちExposure Biasの問題に対処する新しい学習パラダイムであるSelf Forcingを提案する。既存のTeacher Forcing(TF)やDiffusion Forcing(DF)といった手法は、学習時にGround Truth(正解)コンテキストフレームを使用して未来のフレームのノイズ除去を行うが(図1a、図1b)、推論時にはモデル自身の生成した不完全な出力をコンテキストとして用いるため、生成が進むにつれてエラーが蓄積し、品質が劣化するという問題があった。
提案手法であるSelf Forcing(図1c)の核となるアイデアは、学習プロセスを推論プロセスと厳密に一致させることにある。具体的には、学習時においても自己回帰的な自己ロールアウト(self-rollout)を実行し、各フレームの生成を直前にモデル自身が生成した出力に条件付けながら行う。この自己ロールアウト中に、Key-Value(KV)キャッシュ機構を学習時にも活用する。これにより、学習データとしてビデオ全体にわたるモデルの生成サンプルが得られるため、従来のフレーム単位の目的関数に依拠するのではなく、生成されたシーケンス全体(ビデオレベル)の品質を評価するホリスティックな分布一致損失を用いた監督が可能となる。この訓練・推論間でのコンテキスト分布の一致が、Exposure Biasを効果的に緩和し、エラー蓄積を抑制する。
計算効率の観点から、標準的な多数ステップ拡散モデルを用いたSelf Forcingの学習は、長いノイズ除去チェーン全体に対して逆伝播が必要となるため計算コストが膨大になる。このため、本研究では少数ステップ拡散モデル$G_\theta$を採用し、各条件付き分布$p_\theta(x_i|x_{<i})$を少ないステップ数で近似する。さらに、メモリ消費を抑えつつ全ての中間 denoising step に監督信号を与えるために、確率的勾配打ち切り戦略を導入する。Algorithm 1に示すように、各学習イテレーションにおいて、各サンプルシーケンスに対して denoising steps ${t_1, \dots, t_T}$ からランダムなステップ $s$ をサンプリングし、その $s$ 番目のステップからの出力 $\hat{x}_i^0$ を最終出力として使用する。勾配は最終 denoising step $\hat{x}_i^0$ にのみ流れるように制限し、過去のフレームからの勾配はKVキャッシュ埋め込みでデタッチすることで、計算効率と学習の安定性を両立させている。
Self Forcingによって生成されるサンプルは推論時のモデル分布から直接得られるため、ビデオ全体$x_{1:N}$の分布$p_\theta(x_{1:N})$と実データ$p_{data}(x_{1:N})$との整合性を取るホリスティックな損失を適用できる。本研究では、この分布一致のために以下の3つのフレームワークを検討している:
- Distribution Matching Distillation (DMD) [98, 99]: 逆KLダイバージェンス$E_t[DKL(p_{\theta,t}|p_{data,t})]$を最小化し、実データ分布のスコア関数$s_{real}(\hat{x}t, t)$とモデル分布のスコア関数$s{fake}(\hat{x}_t, t)$の差を利用して勾配を計算する。
- Score Identity Distillation (SiD) [112, 113]: Fisherダイバージェンス$E_{t,p_{\theta,t}} [|\nabla \log p_{\theta,t} - \nabla \log p_{data,t}|^2]$を最小化する。
- Generative Adversarial Networks (GANs) [18]: Jensen-Shannonダイバージェンスを近似し、生成器(AR拡散モデル)と識別器が対戦形式で学習する。
これらの損失関数は、TF/DFにおけるフレーム単位の分布一致とは異なり、コンテキストフレームをデータ分布(クリーンまたはノイズ付き)からではなく、モデル自身の分布$p_\theta$からサンプリングされたものとする点で根本的に異なる。これにより、学習と推論の分布を一致させ、モデルが自身の不完全さから学習し、エラー蓄積に対するロバスト性を獲得する。特に、先行研究のCausVid[100]はDMDを用いるが、DF出力(推論時の分布とは異なる)に対してDMDを適用しているため、その効果は限定的であったと本研究は指摘する。
ARモデルの重要な利点である外挿(extrapolation)能力を効率的に実現するため、本研究はローリングKVキャッシュ(Rolling KV Cache)機構を導入する。標準的な双方向注意モデルはKVキャッシュをサポートせず、既存の因果注意モデルはsliding windowのシフト時にKVを再計算する必要があり非効率であった(図3a, 3b)。Rolling KV cacheは固定サイズ$L$のKVキャッシュを保持し、新しいフレームを生成する際に最も古いKVエントリーを破棄し新しいエントリーを追加することで、無限長ビデオ生成を$O(T L)$の時間計算量で可能にする(図3c、Algorithm 2)。ただし、この単純な実装では、最初のフレームが他のフレームと統計的に異なる性質を持つためにちらつき(flickering)が生じる問題がある。本研究では、学習時に最終チャンクをノイズ除去する際にモデルが最初のチャンクにアテンドできないように注意ウィンドウを制限することで、このアーティファクトを抑制しつつ高スループットを維持する。
実験では、Wan2.1-T2V-1.3BモデルをベースにSelf Forcingを実装し、既存の代表的なビデオ生成モデルと比較評価を行った。VBenchスコアとユーザー選好度、リアルタイム性能(スループット、レイテンシ)を測定した結果、本手法のチャンク単位ARモデルは、全評価項目において最高レベルのスコア(VBench Total 84.31)を達成しつつ、リアルタイムスループット(17.0 FPS)とサブ秒レイテンシ(0.69s)を実現した(表1、図4)。特にユーザー選好度では、初期モデルであるWan2.1を含む全てのベースラインを上回った。フレーム単位ARモデルも品質を維持しつつ、より低いレイテンシ(0.45s)を達成している。アブレーション研究では、Self Forcingが様々な分布一致目的関数(DMD, SiD, GAN)でロバストに機能し、従来のTF/DFアプローチよりも一貫して優れた性能を示すことが確認された(表2)。また、TF/DFがフレーム単位ARでエラー蓄積による品質劣化を示すのに対し、Self Forcingは設定によらず安定した性能を維持する。学習効率に関しても、逐次的な自己ロールアウトを行うSelf Forcingは、並列処理が可能なTF/DFと同等かそれ以上の効率を示し、短い壁時計時間でより高い品質を達成できることが示された(図6)。これは、Self Forcingが各フレーム/チャンク内のトークン処理で並列性を維持し、Attentionメカニズムで最適化されたFlashAttention-3を利用できるためである。
本研究の成果は、並列学習パラダイムが持つ逐次状態追跡や訓練・推論分布ミスマッチという根本的な制限を浮き彫りにし、並列事前学習と逐次事後学習という新しいパラダイムの可能性を示唆する。また、ARモデル、拡散モデル、GANsという異なる生成モデル手法が補完的に連携し、優れた生成器を構築できることを実証した。ただし、学習コンテキスト長を超える非常に長いビデオ生成における品質劣化や、勾配打ち切りによる長距離依存学習の限界といった課題も残されており、今後の研究方向として、より優れた外挿技術やState-Space Modelsのような再帰アーキテクチャの活用が挙げられている。リアルタイムビデオ生成技術の悪用リスクにも触れ、検出・透かし技術や政策枠組みの重要性を強調している。
Q:提案手法の処理の流れを順序だてて説明してください
A:
Self Forcingの核心的なアイデアは、従来の教師あり学習(Teacher ForcingやDiffusion Forcing)が推論時と訓練時でコンテキスト(過去のフレーム)の分布が異なることによる「暴露バイアス (exposure bias)」を解消するために、訓練中からモデル自身が生成したフレームを次のフレーム生成のコンテキストとして使用するという点にあります。これにより、訓練時の状況を推論時の状況に近づけ、エラーの蓄積を抑制します。
具体的な処理の流れ(特に訓練時)は以下のようになります。アルゴリズム1を参照しながら読み進めていただくと分かりやすいかと思います。
- 訓練ループの開始: 学習の各イテレーションが始まります。
-
モデル出力とKVキャッシュの初期化: 現在のイテレーションで生成する動画シーケンスを格納するリスト(
Xθ
)と、自己生成された過去フレームのKey/Value (KV) エンベディングを格納するKVキャッシュ(KV
)を空で初期化します。 -
デノイズ最終ステップのランダムサンプリング: Few-step diffusion modelを使うため、各フレームのデノイズは限られたステップ(例えばTステップ)で行われます。学習信号をこれらのステップ全体に与えるため、デノイズプロセスのどのステップ(s番目のステップ)の出力に対して損失を計算するかを、1からTまでの範囲でランダムにサンプリングします(
s ∼ Uniform(1, 2, . . . , T)
)。 - フレーム(またはチャンク)ごとの生成ループ: 生成したい動画のフレーム数Nにわたってループします (i = 1 to N)。
-
フレームの初期ノイズサンプリング: 生成するフレームxiの最初の状態として、標準正規分布から完全にノイズが付加された潜在表現(
xi_tT
)をサンプリングします。これはDiffusionモデルの標準的な開始点です。 -
Diffusion逆プロセス(デノイズ)ループ: サンプリングされたノイズ状態から、Few-step diffusion modelを使って段階的にノイズを除去していきます (j = T down to s)。
- 現在のノイズ状態(
xi_tj
)と、これまでにKV
キャッシュに蓄積された自己生成された過去フレームのコンテキストを条件として、モデルGθを用いてノイズを予測し、デノイズされた中間出力(xi_hat_0
)を計算します(ˆxi0 ← Gθ(xi_tj; tj, KV)
)。KVキャッシュがあるため、過去フレームの情報を効率的に参照できます。 -
勾配計算の制御:
- もし現在のデノイズステップが、ステップ3でランダムにサンプリングした最終ステップsである場合(
j == s
):- このステップの出力に対して損失計算を行うため、勾配計算を有効にします(
Enable gradient computation
)。 - 得られたデノイズ出力(
ˆxi0
)を、現在のイテレーションで生成中の動画シーケンスリスト(Xθ
)に追加します。 -
重要な点として、次のフレーム生成のためにKVキャッシュに追加する際には、勾配計算を無効にします(
Disable gradient computation
)。 これは、現在のフレームの学習が過去の自己生成フレームの誤差に依存しすぎることを防ぎ、訓練の安定化を図るためです。 - このデタッチされた出力からKVエンベディングを計算し、KVキャッシュに追加します(
Cache kvi ← GKVθ(ˆxi0; 0, KV)
,KV.append(kvi)
)。
- このステップの出力に対して損失計算を行うため、勾配計算を有効にします(
- もし現在のデノイズステップがステップsでない場合(
j != s
):- これは中間デノイズステップであるため、勾配計算は無効のままです(
Disable gradient computation
)。 - 得られたデノイズ出力(
ˆxi0
)に、次のタイムステップtj-1
に応じたノイズを再び加算し(xi_tj−1 ← Ψ(ˆxi0, ϵ, tj-1)
)、次のデノイズステップの入力とします。
- これは中間デノイズステップであるため、勾配計算は無効のままです(
- もし現在のデノイズステップが、ステップ3でランダムにサンプリングした最終ステップsである場合(
- 現在のノイズ状態(
-
分布一致損失の計算とパラメータ更新: フレーム生成ループ(ステップ4)が終了し、Nフレーム分の自己生成動画シーケンス(
Xθ
)が得られたら、この生成された動画全体と実際のデータ分布との間の「分布一致損失 (holistic distribution matching loss) 」を計算します(例えばDMD, SiD, GANなど)。この損失は、動画全体としての品質やデータ分布との整合性を評価します。 - 計算された損失を用いて、モデルパラメータθを更新します(
Update θ via distribution matching loss
)。 - ループの継続: ステップ1に戻り、次の訓練イテレーションを開始します。
このように、Self Forcingは訓練中にモデルが自己生成した不完全な出力を積極的にコンテキストとして利用することで、推論時と訓練時の分布のずれを減らし、暴露バイアスに起因するエラー蓄積問題を克服しようとします。また、Few-step diffusionと勾配Truncation、効率的なKVキャッシュの利用により、この自己生成ロールアウトを計算効率良く行う工夫がされています。
Q:関連手法との比較について詳しく説明してください
A:
ご質問ありがとうございます。提案手法であるSelf Forcing (SF) を、関連する既存手法と比較して詳しく説明しますね。この論文では、特に動画拡散モデルにおける自己回帰的な生成(前のフレームに conditioned して次のフレームを生成する)に焦点を当てており、その文脈での比較が中心となります。
比較対象となる主な手法は以下の通りです。
-
双方向 Diffusion Model (Bidirectional Diffusion Model):
- 特徴: Wan2.1 [83] や LTX-Video [24] などに代表される、Transformerの双方向Attentionを用いて動画全体を一度に生成する手法です。訓練・推論ともに全フレーム間の依存関係を考慮できます。
- 利点: 全体を見渡せるため、動画全体の高い一貫性や品質を実現しやすいです。
-
欠点:
- 非自己回帰性: 未来のフレームの情報を用いて現在のフレームを生成するため、真の意味での自己回帰ではありません。リアルタイムストリーミングやインタラクティブなアプリケーションのように、未来が未知である状況には適用できません [1, 2, 4]。
- レイテンシ: 動画全体が生成されるまでユーザーは待つ必要があり、長い動画ではレイテンシが非常に大きくなります [1, 4, Table 1]。
- 効率性 (長尺生成): Sliding Windowを用いて長尺化を試みることも可能ですが、Bidirectional AttentionはKVキャッシュを効率的に利用できず、Windowがスライドするたびに大幅な再計算が必要となり非効率です [3.4, Fig 3a]。
- Self Forcingとの関係: SFは、このような高品質なBidirectional Diffusion Modelを初期モデルとしてFine-tuningすることで、品質のベースラインを確保しています [4, Appendix A]。しかし、その生成パラダイムは根本的に異なり、SFは自己回帰性と低レイテンシでのストリーミング生成を可能にします [1, 4, Table 1]。実験では、SFがBidirectionalモデルであるWan2.1やLTX-Videoに匹敵、あるいはそれ以上の品質を、遥かに低いレイテンシで達成しています [4, Table 1, Fig 4, 5]。
-
教師あり学習 (Teacher Forcing; TF) を用いた自己回帰モデル:
- 特徴: RNNなどの系列モデルで広く用いられる古典的な訓練手法です。動画生成においては、現在のフレームをデノイズする際に、Ground-Truth (真の) の過去フレームをコンテキストとして使用します [1, 3.1, Fig 1a, 2a]。フレームごとのDenoising Loss (MSEなど) で訓練するのが一般的です [3.1]。Transformerベースの実装では、因果的なAttention Maskを用いて訓練時に並列処理を行うことも可能です [3.1, Fig 2a]。
- 利点: 訓練時に理想的な(Ground-Truthの)コンテキストが与えられるため、学習が安定しやすい場合があります。
-
欠点:
- 暴露バイアス (Exposure Bias): 訓練ではGround-Truthを見ているのに、推論ではモデル自身が生成した(しばしば不完全な)過去フレームをコンテキストとして使用します。訓練時と推論時でコンテキストの分布が異なるため、モデルは自身の生成誤差に遭遇する機会がなく、推論時に誤差が蓄積されて動画の品質が劣化しやすくなります [1, 2, 2.2, 5]。
- フレームごとの損失: フレームごとの損失は、動画全体としての品質や長期的な一貫性を直接保証しません [1, 3.3]。
- Self Forcingとの比較: SFは、この暴露バイアスに正面から取り組みます [1, 2.2, 3.2]。訓練時から自己生成フレームをコンテキストに使用することで、訓練と推論のギャップを埋めます。これにより、TFが抱える深刻なエラー蓄積問題を緩和します [1, 2.2, 3.2, 3.3, Table 2, Fig 5]。Table 2のアブレーションスタディでは、Few-stepモデルかつ分布一致損失を使用した場合でも、TFを入力とするモデルはSFに比べて品質が低いことが示されています。
-
Diffusion Forcing (DF) を用いた自己回帰モデル:
- 特徴: TFの暴露バイアスを一部緩和するために提案された手法です。訓練時に現在のフレームをデノイズする際、コンテキストとしてノイズが付加されたGround-Truthの過去フレームを使用します [1, 3.1, Fig 1b, 2b]。各フレームのノイズレベルは独立にサンプリングされます [1, 3.1]。訓練時にノイズを含むコンテキストを見ることで、推論時の(ノイズの乗った状態からの)デノイズ過程をある程度カバーしようとします [1]。TFと同様にフレームごとのDenoising Lossで訓練されるのが一般的です [3.1]。Transformerベースでは、因果的なAttention Maskを用いて並列訓練が可能です [3.1, Fig 2b]。
- 利点: TFよりは訓練と推論の分布ギャップが小さい可能性があります。
-
欠点:
- 暴露バイアス (依然として存在): コンテキストにノイズが含まれていても、その元となる情報はGround-Truthデータです。推論時のような「モデルが自己生成した、ノイズのない、ただし不完全な」フレームをコンテキストとして使用する状況とは、まだ分布が異なります [1, 2, 2.2]。結果として、やはりエラー蓄積は発生します [1, 2, 2.2, 5]。
- KVキャッシュの複雑化: 訓練時にコンテキストにノイズが含まれる場合、効率的なKVキャッシュ設計が複雑になります [1]。
- フレームごとの損失: TFと同様、フレームごとの損失は動画全体の一貫性を保証しにくいです [3.3]。
- Self Forcingとの比較: SFはDFの訓練パラダイムの限界(訓練コンテキストがGround-Truth由来であること)を指摘し、それを克服します [2.4, 3.3]。Self Forcingは訓練時から自己生成されたクリーンなフレームをコンテキストに使用し、さらにフレームごとの損失ではなく動画全体の分布一致損失を使用することで、暴露バイアス対策を徹底しています [1, 2.2, 3.2, 3.3]。Table 2のアブレーションスタディでは、DFを入力とするモデル(特にFew-step + DMDの構成はCausVid [100] に近い)も、SFに比べて品質が劣ることが示されています。Figure 5の定性比較では、DFベースのSkyReels-V2やCausVidで時間の経過に伴う色の飽和などのエラー蓄積が見られるのに対し、SFはより安定した品質を維持しています。
-
Rolling Diffusion およびその派生手法:
- 特徴: 訓練時にフレームごとにノイズレベルを漸進的に増加させる手法 [2.3]。これにより、長尺動画の逐次生成を可能にしますが、厳密な自己回帰の連鎖律分解 $p(x_{1:N}) = \prod_{i=1}^N p(x_i | x_{<i})$ に従わない場合があります [2.3]。
- 欠点: 将来のフレームが部分的に事前に生成されるため、インタラクティブなアプリケーションでのレイテンシが大きくなる可能性があります。また、リアルタイムのユーザー入力に対する応答性が制限されます [2.3]。
- Self Forcingとの比較: SFは厳密な自己回帰モデルであり、現在のフレーム生成が過去フレームのみに依存します。これにより、リアルタイムでの低レイテンシ生成と、ユーザー入力への迅速な応答が可能となります [1, 4]。
-
CausVid [100]:
- 特徴: Self Forcingが最も強く関連している先行研究です [2.4]。Few-stepの自己回帰Diffusionモデルを使用し、分布一致蒸留 (Distribution Matching Distillation; DMD) を用いて訓練しています [2.4, 3.3]。
- SFが改善した点: CausVidは Few-step モデルとDMDを使用している点はSFと似ていますが、訓練時にDFを用いて生成した出力に対してDMD損失を適用しています [2.4, 3.3]。SFの著者らは、これがCausVidの致命的な欠陥であると指摘しています。なぜなら、DFの出力分布は、推論時(自己生成された clean な過去フレームをコンテキストとして、Few-step デノイズで生成される)のモデルの出力分布と一致しないからです。つまり、CausVidは「間違った分布」にマッチさせようとしていることになります [2.4, 3.3]。SFは、訓練時に自己回帰Self-Rolloutを実行し、その出力に対して直接分布一致損失を適用することで、この問題を解決しています [2.4, 3.3]。
- 実験結果での比較: Table 1, 2, Figure 5, 8でCausVidとの比較が行われており、同じベースモデル(Wan-1.3B)を使用しているにも関わらず、Self ForcingがCausVidを品質面で一貫して上回っていることが示されています。特に、Figure 5ではCausVidで時間の経過とともに飽和(オーバーシャープニング)が発生するのに対し、SFは安定しています。
Self Forcingの主要な貢献と優位性のまとめ:
- 暴露バイアスの解消: 訓練時から自己生成フレームをコンテキストに使用する「Self-Rollout」パラダイムにより、訓練と推論の分布ギャップを効果的に埋めます [1, 2.2, 3.2, 3.3, 5]。
- 全体的な分布一致損失: フレームごとの損失ではなく、動画シーケンス全体の分布一致損失(DMD, SiD, GAN)を用いることで、動画全体の品質と一貫性を向上させます [1, 2.2, 3.3, Table 2]。
- 効率性: Few-step diffusion、確率的勾配Truncation、訓練時KVキャッシュにより、Sequentialな訓練にも関わらず高い訓練効率を実現します [1, 3.2, 4, Fig 6]。推論時にはRolling KV Cacheにより、特に長尺動画生成で既存手法より圧倒的に効率的な生成を可能にします [1, 3.4, 4, Fig 3, Table 1]。
- 性能: 上記の要素により、SFは既存の多くのBidirectionalモデルや自己回帰モデルと比較して、高品質かつ低レイテンシ、リアルタイムでのストリーミング生成能力を実現しています [1, 4, Table 1, Fig 4, 5]。
これらの比較から、Self Forcingが既存の自己回帰動画Diffusionモデルが抱える根本的な課題である暴露バイアスとエラー蓄積を克服するための、新しい訓練パラダイムであることがわかります。特に、訓練時と推論時の行動を一致させるというシンプルながら強力な原則に基づいています。
Q:提案手法の限界と今後の課題はなんですか?
A:
提案手法であるSelf Forcingの限界と今後の課題について、論文のセクション5「Discussion」の「Limitation and future directions」で述べられている内容を中心に説明しますね。
提案手法の限界 (Limitations):
-
訓練コンテキスト長を超える動画生成時の品質劣化:
Self Forcingは訓練時に自己生成ロールアウトを行うことで暴露バイアスを効果的に緩和しますが、これは主に訓練で見た動画の長さ(コンテキスト長)の範囲内でのエラー蓄積を防ぐものです。論文では「quality degradation remains observable when generating videos substantially longer than those seen during training」(訓練で見たものよりはるかに長い動画を生成する際には、品質劣化が依然として観察される)と述べられています。これは、モデルが訓練コンテキスト長を超える長期的な依存関係や構造の一貫性を維持することが難しくなるためと考えられます。無限に動画を生成できる自己回帰モデルの利点を最大限に引き出すためには、この長尺生成時の品質維持が重要になります。 -
勾配Truncationによる長距離依存関係学習の制限:
効率的な訓練を実現するために、Self Forcingでは勾配計算を最終デノイズステップに限定する「確率的勾配Truncation (stochastic gradient truncation)」戦略を採用しています [3.2, Algorithm 1]。これはメモリ効率のために必要な工夫ですが、論文では「may limit the model’s ability to learn long-range dependencies」(モデルが長距離依存関係を学習する能力を制限する可能性がある)と指摘されています。勾配が伝播する範囲が制限されることで、時間的に離れたフレーム間の複雑な相互作用をモデルが捉えきれない可能性が考えられます。
今後の課題 (Future Directions):
これらの限界を踏まえ、論文では以下のような今後の研究方向が提案されています。
-
より優れた外挿技術の探求:
訓練時コンテキスト長を超える長尺動画生成時の品質劣化に対処するため、より効果的な動画外挿技術 (extrapolation techniques) を探求することが挙げられています。これには、Rolling KV Cacheのようなメカニズムのさらなる改善や、長時間の動画を生成する際に過去の情報をより効率的かつ意味のある形で活用する方法論の開発が含まれるでしょう。 -
長コンテキストモデリングのための新しいアーキテクチャの検討:
勾配Truncationの制限や長距離依存関係の学習能力の向上を目指し、状態空間モデル (State-Space Models; SSMs) [19, 63] のような、本質的にリカレントでありながらメモリ効率と長コンテキストモデリング能力のバランスが良いアーキテクチャを検討することが提案されています。SSMsは、TransformerのAttention機構に代わる、あるいはそれを補完する形で、長い系列データにおける情報を効率的に扱う能力を持つことが期待されています。これらのアーキテクチャを自己回帰Diffusionフレームワークに組み込むことで、品質を維持したままより長い動画生成が可能になるかもしれません。
これらの課題は、自己回帰的な動画生成モデル、特に Diffusion モデルにおいて、リアルタイム性やインタラクティブ性を追求する上で避けて通れない重要なテーマです。提案手法は大きな一歩を踏み出しましたが、これらの課題を解決することで、よりロバストで応用範囲の広い動画生成技術が実現されるでしょう。これらの方向性は、今後の研究において非常に刺激的なフロンティアを提供してくれるはずです。
Q:FramePackとはどのような関連性がありますか?
A:
論文の参考文献リストにも[105]として「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」というFramePackに関する研究が挙げられています。これは、Self Forcingが関連性を認識している研究の一つであることを示しています。
FramePack [105]は、自己回帰的な動画生成モデル、特に次フレーム予測モデルにおける重要な課題であるExposure Biasと長尺動画の効率的な処理に取り組んでいます。
FramePackの主なアイデアは以下の通りです。
- 入力フレームのパッキング(圧縮): 動画の入力フレームを効率的にパッキング(詰める)ことで、Transformerモデルが処理するコンテキスト長を、動画の実際の長さに関わらず一定に保ちます。これにより、多数のフレームを扱う訓練や推論の計算コストを削減し、訓練時のバッチサイズを増やせるようにします。
- Anti-drifting Sampling (逆時間順序生成): Exposure Biasに対処するために、フレームを時間的に逆の順序で生成するサンプリング方法を提案しています。通常、自己回帰生成は$p(x_1)p(x_2|x_1)p(x_3|x_1,x_2)\dots$のように順方向に進み、前のステップの誤差が累積します。逆順生成では、$p(x_N)p(x_{N-1}|x_N)p(x_{N-2}|x_N,x_{N-1})\dots$のように生成します。これにより、特に時間的に最初の方(逆順では最後の方)のフレームを生成する際に、時間的に未来(逆順では既に生成済みでコンテキストとして利用可能)のフレームを参照できるため、より安定した生成が可能になり、Exposure Biasによるエラー蓄積を抑制できるとされています。
Self ForcingとFramePackの関連性:
- 共通の課題意識: どちらの研究も、自己回帰的な動画生成において中心的な問題であるExposure Biasに対処しようとしています。また、長尺動画の効率的な処理も重要な目標としています。
-
異なるアプローチ: 課題へのアプローチは異なります。
- Exposure Biasへの対処: Self Forcingは訓練パラダイムを自己生成に基づくものに変更することで、訓練と推論の分布を一致させます。FramePackは生成プロセスを逆時間順序にすることで、Exposure Biasに起因するエラーの伝播を防ぎます。
- 効率化: Self ForcingはFew-step diffusion、勾配Truncation、訓練時/推論時のKVキャッシュ(Rolling KV Cache含む)を活用することで効率化を図ります。FramePackは入力フレームのパッキングという、Transformerへの入力形式を工夫することで効率化を図ります。
- 補完的な関係性: FramePackの入力パッキング技術は、多数のフレームを効率的にTransformerに供給するための汎用的な手法と言えます。これは、Self Forcingのような自己生成ロールアウトを訓練時に行う場合や、Rolling KV Cacheを用いて長尺推論を行う場合に、基盤となるフレーム処理の効率をさらに向上させる可能性を秘めています。つまり、両者は異なる角度から自己回帰動画生成の効率と品質向上を目指しており、場合によっては補完的に利用できる可能性も考えられます。
論文中でSelf ForcingとFramePack [105]を直接比較した実験結果は提示されていませんが、参考文献として挙げられていることから、著者らがFramePackのアプローチを認識しており、自己回帰動画生成研究における重要な関連研究として位置づけていることがわかります。どちらも、従来のTeacher ForcingやDiffusion Forcingとは異なる、新しいExposure Bias対策と効率化の手法を提案している点で共通しています。