動画生成AIの全歴史年表 ─ GAN時代からDiT革命、そして2026年の現在地まで

Posted at 2026-05-07

この記事の対象読者

動画生成AIに興味があるが、全体像を掴みきれていない方
「結局いつ何が出たのか」を正確に把握したい方
研究論文・OSS・商用SaaSの関係性を整理したい方

この記事で得られること

2014年〜2026年までの動画生成AI全史を時系列で把握できる
研究論文 / OSS / 商用SaaSの3レイヤーが、どう影響し合ってきたかが分かる
DiTアーキテクチャがなぜ「分水嶺」になったかを理解できる

この記事で扱わないこと

各モデルの詳細な技術解説（別記事で扱います）
画像生成AI（Stable Diffusion、Midjourney等）の歴史（動画に関連する部分のみ言及）
料金プランや使い方のガイド

1. 前史 ─ 動画生成の「種」が蒔かれた時代（2014〜2021年）

動画生成AIは、ある日突然生まれたわけではない。画像生成・敵対的生成ネットワーク（GAN）・拡散モデル・Transformerアーキテクチャという複数の技術的潮流が合流した結果だ。

日付	イベント	カテゴリ	重要度
2014年6月	GAN（Generative Adversarial Network）論文発表（Ian Goodfellow他）	研究	★★★★★
2015年6月	DeepDream 公開（Google） ─ ニューラルネットワークによる「夢のような」画像変換の原型	研究	★★★
2017年6月	Transformer 論文 "Attention Is All You Need" 発表（Google）─ 後のDiTアーキテクチャの基礎	研究	★★★★★
2020年6月	DDPM（Denoising Diffusion Probabilistic Models）論文発表 ─ 拡散モデルの実用化の礎	研究	★★★★★
2020年12月	DVD-GAN（Google）─ GANベースの動画生成の初期研究	研究	★★★
2021年1月	DALL-E（OpenAI）発表 ─ テキストから画像を生成、動画生成への道を切り開いた	研究	★★★★
2021年11月	Malevich（ruDALL-E XL）公開 ─ Kandinskyシリーズの前身	OSS	★★
2021年12月	Latent Diffusion Models 論文発表（CompVis Group + Runway Research） ─ Stable Diffusionの原型であり、潜在空間での拡散という革命的アプローチ	研究	★★★★★

この時期のポイント：動画生成AIはまだ「研究段階」。一般ユーザーが触れるツールは存在しなかった。しかしGAN→拡散モデル→Transformerという技術的基盤がこの期間に確立された。

2. 夜明け ─ 最初の動画生成モデルたち（2022年）

2022年は「テキストから動画を作る」という概念が論文から実装に移り始めた年だ。

日付	イベント	カテゴリ	重要度
2022年5月	CogVideo（清華大学）GitHub公開 ─ 94億パラメータ、世界初の大規模Text-to-Videoモデルと言われる	OSS/研究	★★★★★
2022年6月	Kandinsky 1.0 リリース（Sberbank AI / ai-forever）─ ロシア発の画像生成モデルシリーズ開始	OSS	★★
2022年8月22日	Stable Diffusion 公開（Stability AI / CompVis / Runway）─ 画像生成の民主化。動画生成OSSの母体になる	OSS	★★★★★
2022年9月29日	Make-A-Video（Meta）発表 ─ テキストから短い動画クリップを生成。ただし一般公開はされず	研究	★★★★
2022年10月5日	Imagen Video（Google Brain）発表 ─ 3D U-Netベースの高品質Text-to-Video	研究	★★★★
2022年10月	Phenaki（Google Brain）発表 ─ 複数のプロンプトから長時間の一貫した動画生成が可能	研究	★★★
2022年11月	Kandinsky 2.0 リリース ─ 初の拡散モデルベースへ移行	OSS	★★
2022年	KAIBER ローンチ ─ 音楽に同期したAI動画生成プラットフォーム。Stable Diffusion等のOSSを基盤に構築	SaaS	★★★
2022年12月11日	Runway Gen-1 研究発表（論文公開）─ 動画→動画の生成AI。後に2023年2月に一般公開	研究	★★★★
2022年12月19日	DiT（Diffusion Transformer）論文 arXivに投稿（William Peebles & Saining Xie、UC Berkeley / NYU）─ 拡散モデルのバックボーンをU-NetからTransformerに置換。後のSora、Kling、HunyuanVideoすべてのアーキテクチャ的祖先	研究	★★★★★

DiT論文はarXiv投稿が2022年12月19日、ICCV 2023でOral採択が2023年。この論文の登場が、後に「動画生成AI戦争」の火種となるDiffusion Transformerアーキテクチャを確立した。Sora、Kling、HunyuanVideo、Stable Diffusion 3 ─ 現在の主要モデルのほぼ全てがDiTの子孫である。

3. 商用化の幕開け ─ 一般ユーザーが触れる時代へ（2023年）

2023年は動画生成AIが「研究の世界」から「誰でも使えるツール」へと飛び出した年だ。

日付	イベント	カテゴリ	重要度
2023年2月	Runway Gen-1 一般公開 ─ 世界初の商用動画生成AIの一つ。動画→動画変換が主機能	SaaS	★★★★★
2023年3月	DiT論文 ICCV 2023に採択（Oral Presentation）─ アカデミアからも最高評価	研究	★★★★
2023年3月11日	Runway Gen-2 研究発表 ─ テキスト/画像/動画→動画のマルチモーダル生成	研究	★★★★
2023年3月20日	Runway Gen-2 公式発表 ─ Gen-1の数週間後に発表。テキストだけから動画生成が可能に	SaaS	★★★★★
2023年3月22日	NUWA-XL（Microsoft）発表 ─ 拡散モデルベースの長時間高品質動画生成	研究	★★★
2023年初頭	ModelScope Text2Video（Alibaba）公開 ─ 2秒程度の短いクリップ生成。人気のOSSベースラインに	OSS	★★★
2023年4月	Kandinsky 2.1 リリース ─ テキスト-画像の整合性が大幅に向上	OSS	★★
2023年6月3日	Zeroscope 公開 ─ ModelScopeベースのOSS Text-to-Video、品質改善版	OSS	★★★
2023年6月	Runway Gen-2 一般利用開始（Web版） ─ テキスト→4秒動画の生成が誰でも可能に	SaaS	★★★★
2023年6月28日	Pika Labs Discordで公開 ─ 手軽なText-to-Video生成で急速にユーザー獲得	SaaS	★★★★
2023年7月10日	AnimateDiff 公開 ─ Stable Diffusionモデルにモーション機能を追加するプラグイン的アプローチ	OSS	★★★★
2023年9月27日	Show-1（NUS ShowLab）公開 ─ GPU効率を改善した動画生成	OSS/研究	★★
2023年11月	Pika 1.0 正式発表 ─ Discord発の動画生成ツールが本格的なプロダクトに	SaaS	★★★★
2023年11月21日	Stable Video Diffusion（SVD）公開（Stability AI）─ Stable Diffusionファミリー初の動画生成モデル。画像→14〜25フレームの動画を生成。初の本格的OSSビデオ生成モデル	OSS	★★★★★
2023年11月27日	MagicAnimate 公開 ─ 静止画からのモーション転送	OSS/研究	★★★
2023年12月	Runway 「General World Models」構想発表 ─ 動画生成を「世界シミュレーション」へと位置づける	研究	★★★

2023年の構図：Runway（商用先行）vs Stability AI（OSS先行）vs 中国勢（研究蓄積）。この3つの軸が、2024年以降の爆発的競争の伏線になる。

4. 大爆発 ─ Soraショックと群雄割拠（2024年）

2024年は動画生成AIにとっての「カンブリア大爆発」だった。Soraの衝撃的なデモがすべてを変え、世界中のAIラボが本気で動画生成に参入した。

前半（1月〜6月）

日付	イベント	カテゴリ	重要度
2024年1月15日	PixVerse 公開 ─ 使いやすさで人気を獲得するクリエイタープラットフォーム	SaaS	★★★
2024年1月23日	Lumiere（Google）発表 ─ 時間的一貫性に優れた拡散ベースの動画生成	研究	★★★★
2024年2月13日	Boximator（ByteDance）発表 ─ バウンディングボックスによるモーション制御プラグイン	研究	★★★
2024年2月15日	Sora（OpenAI）発表 ─ 最大60秒のフォトリアリスティック動画をテキストから生成。DiTアーキテクチャ採用。デモ映像の衝撃で世界中が騒然。ただし一般公開はされず	研究/デモ	★★★★★
2024年5月14日	Veo（Google DeepMind）Google I/O 2024で発表 ─ 1080p、1分超の動画生成。Soraへの対抗馬	SaaS	★★★★★
2024年5月	CogVideo の系譜 → Text-to-Videoの基盤として継続的に研究発展	研究	★★★
2024年6月6日	Kling（可灵）（快手 / Kuaishou）公式サイト公開・テスト開始 ─ DiTアーキテクチャ、最大2分・1080p・30fps。中国発のSora対抗馬として一躍注目	SaaS	★★★★★
2024年6月12日	Dream Machine（Luma Labs）一般公開 ─ テキスト/画像→5秒動画。Transformerベースで物理的に正確な動画生成	SaaS	★★★★
2024年6月17日	Runway Gen-3 Alpha 発表 ─ 忠実度・一貫性・モーションがGen-2から大幅向上。10秒クリップ生成	SaaS	★★★★★

後半（7月〜12月）

日付	イベント	カテゴリ	重要度
2024年7月31日	Vidu（生数科技 / Shengshu Technology × 清華大学）公開 ─ 中国のAI動画生成スタートアップ	SaaS	★★★
2024年8月6日	CogVideoX 公開 ─ CogVideoの後継OSS、6秒クリップ生成	OSS	★★★★
2024年9月1日	Hailuo AI / video-01（MiniMax）公開 ─ プロンプト追従性と柔軟性で評価される中国発SaaS	SaaS	★★★★
2024年9月11日	Adobe Firefly Video 発表（ウェイトリスト） ─ 著作権クリアな学習データを売りにした商用利用特化モデル	SaaS	★★★
2024年10月4日	Movie Gen（Meta）発表 ─ 編集・顔統合・Text-to-Video	研究	★★★★
2024年10月10日	Pyramid Flow 公開 ─ Flow Matchingを用いたオートレグレッシブ手法のOSS	OSS	★★★
2024年10月	Mochi 1（Genmo AI）公開 ─ OSS動画生成モデル	OSS	★★★
2024年10月	Haiper 公開 ─ ロンドン発のAI動画生成プラットフォーム	SaaS	★★★
2024年11月22日	LTX-Video（Lightricks）公開 ─ 滑らかな24FPS動画を生成するOSSモデル	OSS	★★★★
2024年12月3日	HunyuanVideo（Tencent）公開 ─ 130億パラメータ、当時最大のOSS動画生成モデル。DiTアーキテクチャの「Dual-Stream to Single-Stream」設計。Apache 2.0ライセンスではないがコミュニティライセンスで公開	OSS	★★★★★
2024年12月9日	Sora Turbo（OpenAI）一般公開 ─ 2月のデモから約10ヶ月。ChatGPT Plus/Proユーザー向け。最大1080p・20秒。ただし期待値との落差も指摘される	SaaS	★★★★★
2024年12月16日	Veo 2（Google DeepMind）公開 ─ VideoFX経由。4K解像度対応、物理シミュレーションの理解が向上	SaaS	★★★★★
2024年12月19日	Kling 1.6 リリース ─ Image-to-Video品質が旧バージョン比195%向上と発表	SaaS	★★★★

2024年は動画生成AIの「iPhone登場」的な年だった。年初のSora発表が雷管となり、Google（Veo）、快手（Kling）、Luma（Dream Machine）、MiniMax（Hailuo）、Tencent（HunyuanVideo）が一気に参入。年末にはSoraが一般公開されたものの、その頃には競合が追いつき、「Sora一強」という構図にはならなかった。

5. 成熟と淘汰 ─ 音声統合と世界モデルへ（2025年）

2025年は「動画を作る」から「世界をシミュレーションする」への転換が始まった年だ。

日付	イベント	カテゴリ	重要度
2025年2月3日	OmniHuman-1（ByteDance）発表 ─ リアルなリップシンクと人体モーション特化	研究	★★★
2025年2月4日	VideoJAM（Meta）発表 ─ 動画生成におけるモーションリアリズム改善フレームワーク	研究	★★★
2025年2月22日	Wan 2.1（Alibaba / 通義実験室）公開 ─ Apache 2.0ライセンスの完全OSS動画生成モデル。LoRAファインチューニング対応で高いカスタマイズ性	OSS	★★★★★
2025年3月31日	Runway Gen-4 発表 ─ モーション柔軟性とリファレンス画像統合が向上	SaaS	★★★★
2025年4月15日	Kling 2.0 発表（北京イベント）─ Multimodal Visual Language（MVL）フレームワーク導入	SaaS	★★★★
2025年5月	Kling 2.1 リリース ─ 品質モード選択機能追加	SaaS	★★★
2025年5月20日	Veo 3（Google DeepMind）リリース ─ 動画と同時に音声（台詞・効果音・環境音）を生成する初の主要モデル。「音声付き動画生成」時代の幕開け	SaaS	★★★★★
2025年6月12日	Seedance 1.0（ByteDance）公開 ─ Veo 3対抗の低コスト動画生成	SaaS	★★★★
2025年7月	LTX-Video アップデート ─ 最大60秒のクリップ生成に対応	OSS	★★★
2025年7月8日	Marey（Moonvalley & Asteria Film）公開 ─ ライセンス済みデータのみで学習した点が特徴	SaaS	★★★
2025年9月30日	Sora 2（OpenAI）発表 ─ iOSアプリ同時リリース。物理シミュレーション精度の大幅向上、「Characters」機能で自分自身を動画に登場させることが可能に。ソーシャル機能搭載	SaaS	★★★★★
2025年10月	LTX-2（Lightricks）リリース ─ 音声生成機能を内蔵	OSS	★★★★
2025年10月15日	Veo 3.1（Google DeepMind）公開 ─ 4K動画 + ネイティブ音声同期。物語コントロールとリアリズムが向上	SaaS	★★★★
2025年12月1日	Kling O1 リリース ─ 統合マルチモーダル動画モデル	SaaS	★★★★
2025年12月3日	Kling 2.6 リリース ─ 映像と音声の同時生成に対応。サイレント映像→後から音声追加のワークフローを根本から刷新	SaaS	★★★★★
2025年12月	Runway Gen-4.5（コードネーム "David"）発表 ─ 複雑な物理・リアルな人体動作・因果関係の理解。Video Arenaリーダーボードで高評価	SaaS	★★★★★

6. 現在地 ─ 2026年の風景

日付	イベント	カテゴリ	重要度
2026年1月31日	Kling 3.0（快手）グローバルリリース ─ Video 3.0 / Video 3.0 Omni / Image 3.0 / Image 3.0 Omni。最大15秒動画、多言語音声生成、マルチショットストーリーボード機能	SaaS	★★★★★
2026年2月	Seedance 2.0（ByteDance）公開 ─ 15秒生成、リアリスティック生成で高評価。ただしMPAから著作権問題で批判も	SaaS	★★★★
2026年2月	MiniMax-M2.5 リリース（MiniMax）─ Hailuoの基盤となるLLMファミリーの最新版	基盤モデル	★★★
2026年3月	Wan 2.7（Alibaba）公開 ─ First/Last Frame制御、最大5本の参照動画入力、最大15秒生成、自然言語ベースの動画編集	OSS	★★★★★
2026年3月31日	Veo 3.1 Lite（Google DeepMind）公開 ─ Veoファミリー最安、720pで$0.05/秒	SaaS	★★★
2026年4月	Veo 4（Google DeepMind）リリース ─ ストーリーボード機能、10〜30秒動画生成	SaaS	★★★★★
2026年4月（現在）	Hailuo 2.3（MiniMax）公開 ─ 物理動作・スタイライゼーション・キャラクター微表情が向上。グローバルコスパ記録更新と発表	SaaS	★★★★

7. アーキテクチャの系譜図

動画生成AIの技術的系譜を整理すると、大きく3つの時代に分けられる。

DiT（Diffusion Transformer）の登場が、動画生成AIの「パラダイムシフト」だったことが分かる。2024年以降の主要モデルのほぼすべてがDiTアーキテクチャ、またはその派生を採用している。

8. 勢力図の変遷

プレイヤー分類（2026年4月現在）

米国テック大手: OpenAI（Sora）、Google DeepMind（Veo）、Meta（Movie Gen）
米国スタートアップ: Runway、Luma Labs、Pika Labs
中国テック大手: 快手（Kling）、Tencent（HunyuanVideo）、Alibaba（Wan）
中国スタートアップ: MiniMax（Hailuo）、生数科技（Vidu）
OSSコミュニティ: Stability AI（SVD）、Lightricks（LTX-Video）、各種研究機関

時代ごとのリーダー

時期	リーダー	特徴
2023年前半	Runway Gen-2	商用化の先駆者、一人勝ち
2023年後半	Runway + Pika	2強体制、SVDがOSS側で台頭
2024年前半	Sora（デモ段階）	衝撃だが触れない。Kling・Lumaが台頭
2024年後半	群雄割拠	Kling・Hailuo・Runway Gen-3・Sora一般公開・Veo2
2025年	Veo 3 + Kling 2.x	音声統合が新基準に。Sora 2は社会機能で差別化
2026年	Kling 3.0 + Veo 4 + Wan 2.7	商用SaaSとOSSの二極化が加速

9. OSS vs クローズドの変遷

動画生成AIの歴史は、常にOSSと商用の間の緊張関係の中にあった。

時期	OSS	クローズド	備考
2022年	CogVideo	Make-A-Video, Imagen Video	OSSが先行したが品質では劣後
2023年	SVD, AnimateDiff	Runway Gen-2, Pika	商用サービスが品質リード
2024年	CogVideoX, HunyuanVideo, LTX-Video	Sora, Veo, Kling	OSSが急速にキャッチアップ
2025年	Wan 2.1（Apache 2.0）, LTX-2	Veo 3, Sora 2, Kling 2.x	Wan 2.1が完全OSSの決定版に
2026年	Wan 2.7	Kling 3.0, Veo 4	品質差は縮小。カスタマイズ性でOSSが有利

まとめ

振り返ると、動画生成AIの歴史は4つの「転換点」で語れる。

2022年12月 ─ DiT論文の登場: U-Net一辺倒だった拡散モデルの世界にTransformerが持ち込まれた。これがなければSoraもKlingも存在しない
2024年2月15日 ─ Sora発表: 「動画はAIで作れる」という認識を世界中に植え付けた。デモ映像のインパクトは画像生成AIのDALL-E 2発表を超えていた
2024年12月 ─ OSS大爆発: HunyuanVideo（130億パラメータ）とLTX-Videoの公開で、OSSでも商用品質の動画生成が可能になった
2025年5月 ─ Veo 3の音声統合: 動画と音声を同時生成する新パラダイムが始まった。以降、音声なしの動画生成は「不完全」とみなされるようになった

そして2026年4月現在、まだこの技術は加速の最中にある。1年前に「すごい」と思っていた4秒のぎこちない動画は、今では15秒のシネマティック映像 + 同期音声に進化している。正直、1年後に何が起きているか想像もつかない...草

この年表は2026年4月13日時点の情報に基づいています。この分野は変化が極めて速いため、公開後すぐに情報が古くなる可能性があります。最新情報は各サービス・プロジェクトの公式サイトで確認してください。

参考文献

DiT論文: "Scalable Diffusion Models with Transformers" (Peebles & Xie, 2022) - arXiv:2212.09748

Sora技術レポート (OpenAI, 2024/02)

HunyuanVideo論文 (Tencent, 2024/12) - arXiv:2412.03603

Stable Video Diffusion (Stability AI, 2023/11)

Kling AI 公式

Veo (Google DeepMind)

Wan (Alibaba)

筆者X

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up