VACEを深掘りする話1
画像/動画生成において成功例・失敗例をある程度経験則でわかっておくのは非常に有効だろうとは思うのですが、ここまでの流れでくれば、もちろん深掘りするしかないと思うのです。
VACEの潜在空間で「無」を定義する:トポロジーの破壊とSelf-Attentionによる領域補完
動画編集の最新モデル VACE (Video-to-Video All-in-One Editing) は、単一のモデルで多様な編集をこなす強力なツールですが、その実体は強烈な 「生成バイアス」 を持つDiT(Diffusion Transformer)アーキテクチャです。
ここでは、動画内の人物を「消去」するというシンプルなタスクにおいて、モデルの内部構造(VCU/Self-Attention)をざっくりと紐解いていきたいと思ってます。後日さらに詳しい内部的な話をするつもりです。
元動画
1. 観察:AIはなぜ「無」を嫌うのか
最初の試行では、消去したい人物を人型に精密にマスクし、グレー($0.5$)で塗りつぶしました。
理論上はこれで「背景に馴染む」はずですが、VACEが導き出した解は 「ポーズを継承した別人の生成」 でした。

構造的要因:VCUにおける「Reactive」の解釈
VACEの基幹モジュールである VCU (Video Condition Unit) は、入力を Inactive ($F_k$: 維持領域) と Reactive ($F_c$: 編集領域) に分離します。
ここでの落とし穴は、モデルが $F_c$ に与えられた「人型のシルエット」を、単なる欠損ではなく
「トポロジー(幾何学的構造)の拘束条件」
として受容してしまった点にあります。
つまり、モデルは「消せ」という命令を「この形状を維持したまま、新しいテクスチャをレンダリングせよ」というControlNet的なDepth指示として誤読したのです。
VACEは元々、入力がsdにおけるいわゆるcontrol netのような入力(depthやpose)であっても処理できるように訓練されてます。なので当然のようにグレーの人型シルエットを扱うことも想定されており、そこに人物を推論によりレンダリングしてしまうのは極めて正当です。
2. 実験:情報のデカップリング(分離)
AIの「過学習的な推論」を切り離すため、情報の最小単位まで入力を分解しました。
STEP 1: 幾何学的制約の排除 (Box Mask)
人型マスクを単純な**矩形(Box)**へ。
これにより、特定の物体(人間)を示唆するトポロジー的なシグナルを物理的に遮断します。モデルにとって、Boxは「形状」ではなく、単なる「計算対象エリア」へと抽象化されます。
STEP 2: セマンティクス(意味論)のアイドリング
テキストプロンプトを「無し(Null)」にすると、今度はガイドを失った生成エンジンが確率分布の裾野(中華アニメ等の強烈な学習バイアス)をサンプリングする暴走を見せました。
解決策は、プロンプトに 「スペース一文字」 を与えることでした。
CLIPトークンとして「空(Null)」ではなく「意味を持たない実体(Space)」を流し込むことで、Cross-Attentionによる外部注入を ニュートラルな待機状態(Idle) に固定することに成功しました。
3. 解析:補完の主役「Self-Attention」
「形状」と「意味」の呪縛から解き放たれたとき、DiT本来の 空間整合能力 が発揮されます。
横の繋がり:空間的なカンニング
マスク領域内の各パッチ(Query)は、Self-Attention層においてマスク外の「本物の壁(Key/Value)」と高い相関を持ちます。
モデルのエネルギー最小化原理に従えば、ゼロから新しい構造を捏造するよりも、隣接するピクセルの統計量をコピーし、テクスチャを継続させる方が圧倒的にLossが低くなるためです。
このとき、リファレンス画像(Reference)という「時間軸の外部参照」すら不要になります。なぜなら、「いま隣にある壁」という空間的なリファレンスこそが、物理的に最強の正解だからです。
4. 考察:稀に出現する「歌う人」の正当性
稀に、Boxの中に「歌う人」が実体化する現象が確認されました。これはエラーではなく、動画生成モデルとしての動的な整合性への回答です。
「背景(壁)とは独立したベクトルで動く矩形領域」が存在する場合、学習データに基づけば、そこには「動体(人間)」が存在するのが確率的に尤もらしい。モデルはSelf-Attentionによる空間補完と、動体生成という2つの正解の間で揺れ動いているのです。
5. 結論:確実な「消去」のための制御理論
検証の結果、VACEを inpainting ツールとしてとして機能させるためには以下の3つが必要であろうと思います。
1. Topology Control: 矩形マスクにより形状シグナルを殺す。
2. Semantic Idling: 空白トークンにより生成バイアスを中和する。
3. Implicit Complement: Self-Attentionに空間整合を委ねる。
これに加えて、テキスト入力は最低空白文字でなければならないのですが、やはりこれもある程度正当性のある画像上に現れてる(現れてほしい)ワードであるべきです。またさらに、リファレンス画像とネガティブプロンプトを添えることで、cross-attnによりそれらを色濃く反映させることが可能です。
おわりに
モデルとの対話において重要なのは、詳細な指示を与えることではなく、「それ以外に解が存在しない状態」まで、情報の自由度(自由エネルギー)を絞り込むことにではないのか?と思いました。
VACEの潜在空間に「無」を定義する試みは、図らずも最新の動画生成AIが持つ、緻密な空間把握能力と強烈な創造性の境界線を浮き彫りにする結果となりました。
編注
この「スペース一文字」の挙動については、手探りしてみる CV/ ML/ NN: 18日目 動画生成モデルに手を出してみる2 も併せてご参照ください。
VFX素材提供:ActionVFX(Free Assets)
VFX assets courtesy of ActionVFX


