1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

動画生成AIの全歴史年表 ─ GAN時代からDiT革命、そして2026年の現在地まで

1
Posted at

この記事の対象読者

  • 動画生成AIに興味があるが、全体像を掴みきれていない方
  • 「結局いつ何が出たのか」を正確に把握したい方
  • 研究論文・OSS・商用SaaSの関係性を整理したい方

この記事で得られること

  • 2014年〜2026年までの動画生成AI全史を時系列で把握できる
  • 研究論文 / OSS / 商用SaaSの3レイヤーが、どう影響し合ってきたかが分かる
  • DiTアーキテクチャがなぜ「分水嶺」になったかを理解できる

この記事で扱わないこと

  • 各モデルの詳細な技術解説(別記事で扱います)
  • 画像生成AI(Stable Diffusion、Midjourney等)の歴史(動画に関連する部分のみ言及)
  • 料金プランや使い方のガイド

1. 前史 ─ 動画生成の「種」が蒔かれた時代(2014〜2021年)

動画生成AIは、ある日突然生まれたわけではない。画像生成・敵対的生成ネットワーク(GAN)・拡散モデル・Transformerアーキテクチャという複数の技術的潮流が合流した結果だ。

日付 イベント カテゴリ 重要度
2014年6月 GAN(Generative Adversarial Network) 論文発表(Ian Goodfellow他) 研究 ★★★★★
2015年6月 DeepDream 公開(Google) ─ ニューラルネットワークによる「夢のような」画像変換の原型 研究 ★★★
2017年6月 Transformer 論文 "Attention Is All You Need" 発表(Google)─ 後のDiTアーキテクチャの基礎 研究 ★★★★★
2020年6月 DDPM(Denoising Diffusion Probabilistic Models)論文発表 ─ 拡散モデルの実用化の礎 研究 ★★★★★
2020年12月 DVD-GAN(Google)─ GANベースの動画生成の初期研究 研究 ★★★
2021年1月 DALL-E(OpenAI)発表 ─ テキストから画像を生成、動画生成への道を切り開いた 研究 ★★★★
2021年11月 Malevich(ruDALL-E XL) 公開 ─ Kandinskyシリーズの前身 OSS ★★
2021年12月 Latent Diffusion Models 論文発表(CompVis Group + Runway Research) ─ Stable Diffusionの原型であり、潜在空間での拡散という革命的アプローチ 研究 ★★★★★

この時期のポイント:動画生成AIはまだ「研究段階」。一般ユーザーが触れるツールは存在しなかった。しかしGAN→拡散モデル→Transformerという技術的基盤がこの期間に確立された。


2. 夜明け ─ 最初の動画生成モデルたち(2022年)

2022年は「テキストから動画を作る」という概念が論文から実装に移り始めた年だ。

日付 イベント カテゴリ 重要度
2022年5月 CogVideo(清華大学)GitHub公開 ─ 94億パラメータ、世界初の大規模Text-to-Videoモデルと言われる OSS/研究 ★★★★★
2022年6月 Kandinsky 1.0 リリース(Sberbank AI / ai-forever)─ ロシア発の画像生成モデルシリーズ開始 OSS ★★
2022年8月22日 Stable Diffusion 公開(Stability AI / CompVis / Runway)─ 画像生成の民主化。動画生成OSSの母体になる OSS ★★★★★
2022年9月29日 Make-A-Video(Meta)発表 ─ テキストから短い動画クリップを生成。ただし一般公開はされず 研究 ★★★★
2022年10月5日 Imagen Video(Google Brain)発表 ─ 3D U-Netベースの高品質Text-to-Video 研究 ★★★★
2022年10月 Phenaki(Google Brain)発表 ─ 複数のプロンプトから長時間の一貫した動画生成が可能 研究 ★★★
2022年11月 Kandinsky 2.0 リリース ─ 初の拡散モデルベースへ移行 OSS ★★
2022年 KAIBER ローンチ ─ 音楽に同期したAI動画生成プラットフォーム。Stable Diffusion等のOSSを基盤に構築 SaaS ★★★
2022年12月11日 Runway Gen-1 研究発表(論文公開)─ 動画→動画の生成AI。後に2023年2月に一般公開 研究 ★★★★
2022年12月19日 DiT(Diffusion Transformer)論文 arXivに投稿(William Peebles & Saining Xie、UC Berkeley / NYU)─ 拡散モデルのバックボーンをU-NetからTransformerに置換。後のSora、Kling、HunyuanVideoすべてのアーキテクチャ的祖先 研究 ★★★★★

DiT論文はarXiv投稿が2022年12月19日、ICCV 2023でOral採択が2023年。この論文の登場が、後に「動画生成AI戦争」の火種となるDiffusion Transformerアーキテクチャを確立した。Sora、Kling、HunyuanVideo、Stable Diffusion 3 ─ 現在の主要モデルのほぼ全てがDiTの子孫である。


3. 商用化の幕開け ─ 一般ユーザーが触れる時代へ(2023年)

2023年は動画生成AIが「研究の世界」から「誰でも使えるツール」へと飛び出した年だ。

日付 イベント カテゴリ 重要度
2023年2月 Runway Gen-1 一般公開 ─ 世界初の商用動画生成AIの一つ。動画→動画変換が主機能 SaaS ★★★★★
2023年3月 DiT論文 ICCV 2023に採択(Oral Presentation)─ アカデミアからも最高評価 研究 ★★★★
2023年3月11日 Runway Gen-2 研究発表 ─ テキスト/画像/動画→動画のマルチモーダル生成 研究 ★★★★
2023年3月20日 Runway Gen-2 公式発表 ─ Gen-1の数週間後に発表。テキストだけから動画生成が可能に SaaS ★★★★★
2023年3月22日 NUWA-XL(Microsoft)発表 ─ 拡散モデルベースの長時間高品質動画生成 研究 ★★★
2023年初頭 ModelScope Text2Video(Alibaba)公開 ─ 2秒程度の短いクリップ生成。人気のOSSベースラインに OSS ★★★
2023年4月 Kandinsky 2.1 リリース ─ テキスト-画像の整合性が大幅に向上 OSS ★★
2023年6月3日 Zeroscope 公開 ─ ModelScopeベースのOSS Text-to-Video、品質改善版 OSS ★★★
2023年6月 Runway Gen-2 一般利用開始(Web版) ─ テキスト→4秒動画の生成が誰でも可能に SaaS ★★★★
2023年6月28日 Pika Labs Discordで公開 ─ 手軽なText-to-Video生成で急速にユーザー獲得 SaaS ★★★★
2023年7月10日 AnimateDiff 公開 ─ Stable Diffusionモデルにモーション機能を追加するプラグイン的アプローチ OSS ★★★★
2023年9月27日 Show-1(NUS ShowLab)公開 ─ GPU効率を改善した動画生成 OSS/研究 ★★
2023年11月 Pika 1.0 正式発表 ─ Discord発の動画生成ツールが本格的なプロダクトに SaaS ★★★★
2023年11月21日 Stable Video Diffusion(SVD) 公開(Stability AI)─ Stable Diffusionファミリー初の動画生成モデル。画像→14〜25フレームの動画を生成。初の本格的OSSビデオ生成モデル OSS ★★★★★
2023年11月27日 MagicAnimate 公開 ─ 静止画からのモーション転送 OSS/研究 ★★★
2023年12月 Runway 「General World Models」構想発表 ─ 動画生成を「世界シミュレーション」へと位置づける 研究 ★★★

2023年の構図:Runway(商用先行)vs Stability AI(OSS先行)vs 中国勢(研究蓄積)。この3つの軸が、2024年以降の爆発的競争の伏線になる。


4. 大爆発 ─ Soraショックと群雄割拠(2024年)

2024年は動画生成AIにとっての「カンブリア大爆発」だった。Soraの衝撃的なデモがすべてを変え、世界中のAIラボが本気で動画生成に参入した。

前半(1月〜6月)

日付 イベント カテゴリ 重要度
2024年1月15日 PixVerse 公開 ─ 使いやすさで人気を獲得するクリエイタープラットフォーム SaaS ★★★
2024年1月23日 Lumiere(Google)発表 ─ 時間的一貫性に優れた拡散ベースの動画生成 研究 ★★★★
2024年2月13日 Boximator(ByteDance)発表 ─ バウンディングボックスによるモーション制御プラグイン 研究 ★★★
2024年2月15日 Sora(OpenAI)発表最大60秒のフォトリアリスティック動画をテキストから生成。DiTアーキテクチャ採用。デモ映像の衝撃で世界中が騒然。ただし一般公開はされず 研究/デモ ★★★★★
2024年5月14日 Veo(Google DeepMind)Google I/O 2024で発表 ─ 1080p、1分超の動画生成。Soraへの対抗馬 SaaS ★★★★★
2024年5月 CogVideo の系譜 → Text-to-Videoの基盤として継続的に研究発展 研究 ★★★
2024年6月6日 Kling(可灵)(快手 / Kuaishou)公式サイト公開・テスト開始 ─ DiTアーキテクチャ、最大2分・1080p・30fps。中国発のSora対抗馬として一躍注目 SaaS ★★★★★
2024年6月12日 Dream Machine(Luma Labs)一般公開 ─ テキスト/画像→5秒動画。Transformerベースで物理的に正確な動画生成 SaaS ★★★★
2024年6月17日 Runway Gen-3 Alpha 発表 ─ 忠実度・一貫性・モーションがGen-2から大幅向上。10秒クリップ生成 SaaS ★★★★★

後半(7月〜12月)

日付 イベント カテゴリ 重要度
2024年7月31日 Vidu(生数科技 / Shengshu Technology × 清華大学)公開 ─ 中国のAI動画生成スタートアップ SaaS ★★★
2024年8月6日 CogVideoX 公開 ─ CogVideoの後継OSS、6秒クリップ生成 OSS ★★★★
2024年9月1日 Hailuo AI / video-01(MiniMax)公開 ─ プロンプト追従性と柔軟性で評価される中国発SaaS SaaS ★★★★
2024年9月11日 Adobe Firefly Video 発表(ウェイトリスト) ─ 著作権クリアな学習データを売りにした商用利用特化モデル SaaS ★★★
2024年10月4日 Movie Gen(Meta)発表 ─ 編集・顔統合・Text-to-Video 研究 ★★★★
2024年10月10日 Pyramid Flow 公開 ─ Flow Matchingを用いたオートレグレッシブ手法のOSS OSS ★★★
2024年10月 Mochi 1(Genmo AI)公開 ─ OSS動画生成モデル OSS ★★★
2024年10月 Haiper 公開 ─ ロンドン発のAI動画生成プラットフォーム SaaS ★★★
2024年11月22日 LTX-Video(Lightricks)公開 ─ 滑らかな24FPS動画を生成するOSSモデル OSS ★★★★
2024年12月3日 HunyuanVideo(Tencent)公開 ─ 130億パラメータ、当時最大のOSS動画生成モデル。DiTアーキテクチャの「Dual-Stream to Single-Stream」設計。Apache 2.0ライセンスではないがコミュニティライセンスで公開 OSS ★★★★★
2024年12月9日 Sora Turbo(OpenAI)一般公開 ─ 2月のデモから約10ヶ月。ChatGPT Plus/Proユーザー向け。最大1080p・20秒。ただし期待値との落差も指摘される SaaS ★★★★★
2024年12月16日 Veo 2(Google DeepMind)公開 ─ VideoFX経由。4K解像度対応、物理シミュレーションの理解が向上 SaaS ★★★★★
2024年12月19日 Kling 1.6 リリース ─ Image-to-Video品質が旧バージョン比195%向上と発表 SaaS ★★★★

2024年は動画生成AIの「iPhone登場」的な年だった。年初のSora発表が雷管となり、Google(Veo)、快手(Kling)、Luma(Dream Machine)、MiniMax(Hailuo)、Tencent(HunyuanVideo)が一気に参入。年末にはSoraが一般公開されたものの、その頃には競合が追いつき、「Sora一強」という構図にはならなかった。


5. 成熟と淘汰 ─ 音声統合と世界モデルへ(2025年)

2025年は「動画を作る」から「世界をシミュレーションする」への転換が始まった年だ。

日付 イベント カテゴリ 重要度
2025年2月3日 OmniHuman-1(ByteDance)発表 ─ リアルなリップシンクと人体モーション特化 研究 ★★★
2025年2月4日 VideoJAM(Meta)発表 ─ 動画生成におけるモーションリアリズム改善フレームワーク 研究 ★★★
2025年2月22日 Wan 2.1(Alibaba / 通義実験室)公開 ─ Apache 2.0ライセンスの完全OSS動画生成モデル。LoRAファインチューニング対応で高いカスタマイズ性 OSS ★★★★★
2025年3月31日 Runway Gen-4 発表 ─ モーション柔軟性とリファレンス画像統合が向上 SaaS ★★★★
2025年4月15日 Kling 2.0 発表(北京イベント)─ Multimodal Visual Language(MVL)フレームワーク導入 SaaS ★★★★
2025年5月 Kling 2.1 リリース ─ 品質モード選択機能追加 SaaS ★★★
2025年5月20日 Veo 3(Google DeepMind)リリース ─ 動画と同時に音声(台詞・効果音・環境音)を生成する初の主要モデル。「音声付き動画生成」時代の幕開け SaaS ★★★★★
2025年6月12日 Seedance 1.0(ByteDance)公開 ─ Veo 3対抗の低コスト動画生成 SaaS ★★★★
2025年7月 LTX-Video アップデート ─ 最大60秒のクリップ生成に対応 OSS ★★★
2025年7月8日 Marey(Moonvalley & Asteria Film)公開 ─ ライセンス済みデータのみで学習した点が特徴 SaaS ★★★
2025年9月30日 Sora 2(OpenAI)発表 ─ iOSアプリ同時リリース。物理シミュレーション精度の大幅向上、「Characters」機能で自分自身を動画に登場させることが可能に。ソーシャル機能搭載 SaaS ★★★★★
2025年10月 LTX-2(Lightricks)リリース ─ 音声生成機能を内蔵 OSS ★★★★
2025年10月15日 Veo 3.1(Google DeepMind)公開 ─ 4K動画 + ネイティブ音声同期。物語コントロールとリアリズムが向上 SaaS ★★★★
2025年12月1日 Kling O1 リリース ─ 統合マルチモーダル動画モデル SaaS ★★★★
2025年12月3日 Kling 2.6 リリース ─ 映像と音声の同時生成に対応。サイレント映像→後から音声追加のワークフローを根本から刷新 SaaS ★★★★★
2025年12月 Runway Gen-4.5(コードネーム "David")発表 ─ 複雑な物理・リアルな人体動作・因果関係の理解。Video Arenaリーダーボードで高評価 SaaS ★★★★★

6. 現在地 ─ 2026年の風景

日付 イベント カテゴリ 重要度
2026年1月31日 Kling 3.0(快手)グローバルリリース ─ Video 3.0 / Video 3.0 Omni / Image 3.0 / Image 3.0 Omni。最大15秒動画、多言語音声生成、マルチショットストーリーボード機能 SaaS ★★★★★
2026年2月 Seedance 2.0(ByteDance)公開 ─ 15秒生成、リアリスティック生成で高評価。ただしMPAから著作権問題で批判も SaaS ★★★★
2026年2月 MiniMax-M2.5 リリース(MiniMax)─ Hailuoの基盤となるLLMファミリーの最新版 基盤モデル ★★★
2026年3月 Wan 2.7(Alibaba)公開 ─ First/Last Frame制御、最大5本の参照動画入力、最大15秒生成、自然言語ベースの動画編集 OSS ★★★★★
2026年3月31日 Veo 3.1 Lite(Google DeepMind)公開 ─ Veoファミリー最安、720pで$0.05/秒 SaaS ★★★
2026年4月 Veo 4(Google DeepMind)リリース ─ ストーリーボード機能、10〜30秒動画生成 SaaS ★★★★★
2026年4月(現在) Hailuo 2.3(MiniMax)公開 ─ 物理動作・スタイライゼーション・キャラクター微表情が向上。グローバルコスパ記録更新と発表 SaaS ★★★★

7. アーキテクチャの系譜図

動画生成AIの技術的系譜を整理すると、大きく3つの時代に分けられる。

DiT(Diffusion Transformer)の登場が、動画生成AIの「パラダイムシフト」だったことが分かる。2024年以降の主要モデルのほぼすべてがDiTアーキテクチャ、またはその派生を採用している。


8. 勢力図の変遷

プレイヤー分類(2026年4月現在)

米国テック大手: OpenAI(Sora)、Google DeepMind(Veo)、Meta(Movie Gen)
米国スタートアップ: Runway、Luma Labs、Pika Labs
中国テック大手: 快手(Kling)、Tencent(HunyuanVideo)、Alibaba(Wan)
中国スタートアップ: MiniMax(Hailuo)、生数科技(Vidu)
OSSコミュニティ: Stability AI(SVD)、Lightricks(LTX-Video)、各種研究機関

時代ごとのリーダー

時期 リーダー 特徴
2023年前半 Runway Gen-2 商用化の先駆者、一人勝ち
2023年後半 Runway + Pika 2強体制、SVDがOSS側で台頭
2024年前半 Sora(デモ段階) 衝撃だが触れない。Kling・Lumaが台頭
2024年後半 群雄割拠 Kling・Hailuo・Runway Gen-3・Sora一般公開・Veo2
2025年 Veo 3 + Kling 2.x 音声統合が新基準に。Sora 2は社会機能で差別化
2026年 Kling 3.0 + Veo 4 + Wan 2.7 商用SaaSとOSSの二極化が加速

9. OSS vs クローズドの変遷

動画生成AIの歴史は、常にOSSと商用の間の緊張関係の中にあった。

時期 OSS クローズド 備考
2022年 CogVideo Make-A-Video, Imagen Video OSSが先行したが品質では劣後
2023年 SVD, AnimateDiff Runway Gen-2, Pika 商用サービスが品質リード
2024年 CogVideoX, HunyuanVideo, LTX-Video Sora, Veo, Kling OSSが急速にキャッチアップ
2025年 Wan 2.1(Apache 2.0), LTX-2 Veo 3, Sora 2, Kling 2.x Wan 2.1が完全OSSの決定版に
2026年 Wan 2.7 Kling 3.0, Veo 4 品質差は縮小。カスタマイズ性でOSSが有利

まとめ

振り返ると、動画生成AIの歴史は4つの「転換点」で語れる。

  1. 2022年12月 ─ DiT論文の登場: U-Net一辺倒だった拡散モデルの世界にTransformerが持ち込まれた。これがなければSoraもKlingも存在しない
  2. 2024年2月15日 ─ Sora発表: 「動画はAIで作れる」という認識を世界中に植え付けた。デモ映像のインパクトは画像生成AIのDALL-E 2発表を超えていた
  3. 2024年12月 ─ OSS大爆発: HunyuanVideo(130億パラメータ)とLTX-Videoの公開で、OSSでも商用品質の動画生成が可能になった
  4. 2025年5月 ─ Veo 3の音声統合: 動画と音声を同時生成する新パラダイムが始まった。以降、音声なしの動画生成は「不完全」とみなされるようになった

そして2026年4月現在、まだこの技術は加速の最中にある。1年前に「すごい」と思っていた4秒のぎこちない動画は、今では15秒のシネマティック映像 + 同期音声に進化している。正直、1年後に何が起きているか想像もつかない...草

この年表は2026年4月13日時点の情報に基づいています。この分野は変化が極めて速いため、公開後すぐに情報が古くなる可能性があります。最新情報は各サービス・プロジェクトの公式サイトで確認してください。

参考文献

  • DiT論文: "Scalable Diffusion Models with Transformers" (Peebles & Xie, 2022) - arXiv:2212.09748

  • Sora技術レポート (OpenAI, 2024/02)

  • HunyuanVideo論文 (Tencent, 2024/12) - arXiv:2412.03603

  • Stable Video Diffusion (Stability AI, 2023/11)

  • Kling AI 公式

  • Veo (Google DeepMind)

  • Wan (Alibaba)


筆者X

X

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?