動画生成AIの飛躍的な進化(ブレイクスルー)は、単一の発見ではなく、いくつかの重要な技術的転換が重なることで起きました。
最大のブレイクスルーは、「Diffusion(拡散)モデル」と「Transformerアーキテクチャ」の融合(DiT: Diffusion Transformer)、そして「時空間(Spatiotemporal)の統合学習」です。
1. U-NetからTransformerへの移行(DiTの誕生)
初期の画像・動画生成AI(Midjourney v4や初期のStable Diffusionなど)は、画像のノイズを除去して絵を作る「Diffusionモデル」のエンジンとして、「U-Net」という畳み込みニューラルネットワーク(CNN)を使用していました。
しかし、U-Netは高解像度や長時間の動画になると計算効率が悪く、スケールアップ(モデルを巨大化すること)が難しいという壁がありました。
ここで起きたブレイクスルーが、Diffusionモデルのエンジンを、LLM(大規模言語モデル)で大成功を収めていた「Transformer」にすげ替えたことです(これをDiTと呼びます)。
- スケール則(Scaling Law)の獲得: Transformerは「計算資源とデータを与えれば与えるほど、青天井で賢くなる」という特性を持っています。DiTにより、動画生成AIもLLMと同じように、巨大なスパコンで力技で学習させればさせるほど、劇的に物理法則や動きの整合性を理解できるようになりました。
2. 時空間(Spatiotemporal)パッチによる同時学習
もう一つの大きな壁は、「動画とは何か」をAIにどう理解させるかでした。
以前は、「まず画像を作ってから、それを少しずつ変化させて動画にする」というアプローチが主流でしたが、これでは手足が突然消えたり、背景がぐにゃぐにゃに歪む「一貫性の崩壊」が起きていました。
ブレイクスルーは、動画を「空間(縦横のピクセル)」と「時間(フレーム)」のまとまり(パッチ)として切り刻み、同時にTransformerに処理させる手法です(Space-Time Patches)。
- これにより、AIは「リンゴが落ちる」という現象を、「1枚目のリンゴ、2枚目のリンゴ…」と個別に理解するのではなく、「空間と時間をまたがる一つの連続した塊」として理解できるようになりました。OpenAIのSoraや、GoogleのVeoなどは、このアプローチによって「物理法則のシミュレーション」に近い圧倒的な一貫性を獲得しました。
3. ネイティブ・マルチモーダルと「世界モデル」の概念
最近のブレイクスルー(Gemini Omniなどに代表される)は、テキスト、画像、動画、音声をすべて同じ「トークン」として扱い、同時に学習・処理するネイティブ・マルチモーダルです。
- AIが単にピクセルを生成するのではなく、「水は下に向かって流れる」「鏡には反転して映る」といった現実世界の物理法則や因果関係(世界モデル)を内部でシミュレーションした結果として、動画を出力するようになりました。
まとめると:
動画生成のブレイクスルーは、LLMで成功したTransformerのスケールパワーを動画生成(Diffusion)に持ち込み、時間と空間を同時に学習させることで、AIに「物理世界のシミュレーター」を作らせたことだと言えます。