動画生成AIのブレイクスルーは何か

Posted at 2026-07-02

動画生成AIの飛躍的な進化（ブレイクスルー）は、単一の発見ではなく、いくつかの重要な技術的転換が重なることで起きました。

最大のブレイクスルーは、「Diffusion（拡散）モデル」と「Transformerアーキテクチャ」の融合（DiT: Diffusion Transformer）、そして「時空間（Spatiotemporal）の統合学習」です。

1. U-NetからTransformerへの移行（DiTの誕生）

初期の画像・動画生成AI（Midjourney v4や初期のStable Diffusionなど）は、画像のノイズを除去して絵を作る「Diffusionモデル」のエンジンとして、「U-Net」という畳み込みニューラルネットワーク（CNN）を使用していました。

しかし、U-Netは高解像度や長時間の動画になると計算効率が悪く、スケールアップ（モデルを巨大化すること）が難しいという壁がありました。

ここで起きたブレイクスルーが、Diffusionモデルのエンジンを、LLM（大規模言語モデル）で大成功を収めていた「Transformer」にすげ替えたことです（これをDiTと呼びます）。

スケール則（Scaling Law）の獲得: Transformerは「計算資源とデータを与えれば与えるほど、青天井で賢くなる」という特性を持っています。DiTにより、動画生成AIもLLMと同じように、巨大なスパコンで力技で学習させればさせるほど、劇的に物理法則や動きの整合性を理解できるようになりました。

もう一つの大きな壁は、「動画とは何か」をAIにどう理解させるかでした。

以前は、「まず画像を作ってから、それを少しずつ変化させて動画にする」というアプローチが主流でしたが、これでは手足が突然消えたり、背景がぐにゃぐにゃに歪む「一貫性の崩壊」が起きていました。

ブレイクスルーは、動画を「空間（縦横のピクセル）」と「時間（フレーム）」のまとまり（パッチ）として切り刻み、同時にTransformerに処理させる手法です（Space-Time Patches）。

これにより、AIは「リンゴが落ちる」という現象を、「1枚目のリンゴ、2枚目のリンゴ…」と個別に理解するのではなく、「空間と時間をまたがる一つの連続した塊」として理解できるようになりました。OpenAIのSoraや、GoogleのVeoなどは、このアプローチによって「物理法則のシミュレーション」に近い圧倒的な一貫性を獲得しました。

最近のブレイクスルー（Gemini Omniなどに代表される）は、テキスト、画像、動画、音声をすべて同じ「トークン」として扱い、同時に学習・処理するネイティブ・マルチモーダルです。

AIが単にピクセルを生成するのではなく、「水は下に向かって流れる」「鏡には反転して映る」といった現実世界の物理法則や因果関係（世界モデル）を内部でシミュレーションした結果として、動画を出力するようになりました。

まとめると：
動画生成のブレイクスルーは、LLMで成功したTransformerのスケールパワーを動画生成（Diffusion）に持ち込み、時間と空間を同時に学習させることで、AIに「物理世界のシミュレーター」を作らせたことだと言えます。