0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

動画生成AIのブレイクスルーは何か

0
Posted at

動画生成AIの飛躍的な進化(ブレイクスルー)は、単一の発見ではなく、いくつかの重要な技術的転換が重なることで起きました。

最大のブレイクスルーは、「Diffusion(拡散)モデル」と「Transformerアーキテクチャ」の融合(DiT: Diffusion Transformer)、そして「時空間(Spatiotemporal)の統合学習」です。

1. U-NetからTransformerへの移行(DiTの誕生)

初期の画像・動画生成AI(Midjourney v4や初期のStable Diffusionなど)は、画像のノイズを除去して絵を作る「Diffusionモデル」のエンジンとして、「U-Net」という畳み込みニューラルネットワーク(CNN)を使用していました。

しかし、U-Netは高解像度や長時間の動画になると計算効率が悪く、スケールアップ(モデルを巨大化すること)が難しいという壁がありました。

ここで起きたブレイクスルーが、Diffusionモデルのエンジンを、LLM(大規模言語モデル)で大成功を収めていた「Transformer」にすげ替えたことです(これをDiTと呼びます)。

  • スケール則(Scaling Law)の獲得: Transformerは「計算資源とデータを与えれば与えるほど、青天井で賢くなる」という特性を持っています。DiTにより、動画生成AIもLLMと同じように、巨大なスパコンで力技で学習させればさせるほど、劇的に物理法則や動きの整合性を理解できるようになりました。

2. 時空間(Spatiotemporal)パッチによる同時学習

もう一つの大きな壁は、「動画とは何か」をAIにどう理解させるかでした。

以前は、「まず画像を作ってから、それを少しずつ変化させて動画にする」というアプローチが主流でしたが、これでは手足が突然消えたり、背景がぐにゃぐにゃに歪む「一貫性の崩壊」が起きていました。

ブレイクスルーは、動画を「空間(縦横のピクセル)」と「時間(フレーム)」のまとまり(パッチ)として切り刻み、同時にTransformerに処理させる手法です(Space-Time Patches)。

  • これにより、AIは「リンゴが落ちる」という現象を、「1枚目のリンゴ、2枚目のリンゴ…」と個別に理解するのではなく、「空間と時間をまたがる一つの連続した塊」として理解できるようになりました。OpenAIのSoraや、GoogleのVeoなどは、このアプローチによって「物理法則のシミュレーション」に近い圧倒的な一貫性を獲得しました。

3. ネイティブ・マルチモーダルと「世界モデル」の概念

最近のブレイクスルー(Gemini Omniなどに代表される)は、テキスト、画像、動画、音声をすべて同じ「トークン」として扱い、同時に学習・処理するネイティブ・マルチモーダルです。

  • AIが単にピクセルを生成するのではなく、「水は下に向かって流れる」「鏡には反転して映る」といった現実世界の物理法則や因果関係(世界モデル)を内部でシミュレーションした結果として、動画を出力するようになりました。

まとめると:
動画生成のブレイクスルーは、LLMで成功したTransformerのスケールパワーを動画生成(Diffusion)に持ち込み、時間と空間を同時に学習させることで、AIに「物理世界のシミュレーター」を作らせたことだと言えます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?