この記事の対象読者
- 動画生成AIに興味があるが、全体像を掴みきれていない方
- 「結局いつ何が出たのか」を正確に把握したい方
- 研究論文・OSS・商用SaaSの関係性を整理したい方
この記事で得られること
- 2014年〜2026年までの動画生成AI全史を時系列で把握できる
- 研究論文 / OSS / 商用SaaSの3レイヤーが、どう影響し合ってきたかが分かる
- DiTアーキテクチャがなぜ「分水嶺」になったかを理解できる
この記事で扱わないこと
- 各モデルの詳細な技術解説(別記事で扱います)
- 画像生成AI(Stable Diffusion、Midjourney等)の歴史(動画に関連する部分のみ言及)
- 料金プランや使い方のガイド
1. 前史 ─ 動画生成の「種」が蒔かれた時代(2014〜2021年)
動画生成AIは、ある日突然生まれたわけではない。画像生成・敵対的生成ネットワーク(GAN)・拡散モデル・Transformerアーキテクチャという複数の技術的潮流が合流した結果だ。
| 日付 | イベント | カテゴリ | 重要度 |
|---|---|---|---|
| 2014年6月 | GAN(Generative Adversarial Network) 論文発表(Ian Goodfellow他) | 研究 | ★★★★★ |
| 2015年6月 | DeepDream 公開(Google) ─ ニューラルネットワークによる「夢のような」画像変換の原型 | 研究 | ★★★ |
| 2017年6月 | Transformer 論文 "Attention Is All You Need" 発表(Google)─ 後のDiTアーキテクチャの基礎 | 研究 | ★★★★★ |
| 2020年6月 | DDPM(Denoising Diffusion Probabilistic Models)論文発表 ─ 拡散モデルの実用化の礎 | 研究 | ★★★★★ |
| 2020年12月 | DVD-GAN(Google)─ GANベースの動画生成の初期研究 | 研究 | ★★★ |
| 2021年1月 | DALL-E(OpenAI)発表 ─ テキストから画像を生成、動画生成への道を切り開いた | 研究 | ★★★★ |
| 2021年11月 | Malevich(ruDALL-E XL) 公開 ─ Kandinskyシリーズの前身 | OSS | ★★ |
| 2021年12月 | Latent Diffusion Models 論文発表(CompVis Group + Runway Research) ─ Stable Diffusionの原型であり、潜在空間での拡散という革命的アプローチ | 研究 | ★★★★★ |
この時期のポイント:動画生成AIはまだ「研究段階」。一般ユーザーが触れるツールは存在しなかった。しかしGAN→拡散モデル→Transformerという技術的基盤がこの期間に確立された。
2. 夜明け ─ 最初の動画生成モデルたち(2022年)
2022年は「テキストから動画を作る」という概念が論文から実装に移り始めた年だ。
| 日付 | イベント | カテゴリ | 重要度 |
|---|---|---|---|
| 2022年5月 | CogVideo(清華大学)GitHub公開 ─ 94億パラメータ、世界初の大規模Text-to-Videoモデルと言われる | OSS/研究 | ★★★★★ |
| 2022年6月 | Kandinsky 1.0 リリース(Sberbank AI / ai-forever)─ ロシア発の画像生成モデルシリーズ開始 | OSS | ★★ |
| 2022年8月22日 | Stable Diffusion 公開(Stability AI / CompVis / Runway)─ 画像生成の民主化。動画生成OSSの母体になる | OSS | ★★★★★ |
| 2022年9月29日 | Make-A-Video(Meta)発表 ─ テキストから短い動画クリップを生成。ただし一般公開はされず | 研究 | ★★★★ |
| 2022年10月5日 | Imagen Video(Google Brain)発表 ─ 3D U-Netベースの高品質Text-to-Video | 研究 | ★★★★ |
| 2022年10月 | Phenaki(Google Brain)発表 ─ 複数のプロンプトから長時間の一貫した動画生成が可能 | 研究 | ★★★ |
| 2022年11月 | Kandinsky 2.0 リリース ─ 初の拡散モデルベースへ移行 | OSS | ★★ |
| 2022年 | KAIBER ローンチ ─ 音楽に同期したAI動画生成プラットフォーム。Stable Diffusion等のOSSを基盤に構築 | SaaS | ★★★ |
| 2022年12月11日 | Runway Gen-1 研究発表(論文公開)─ 動画→動画の生成AI。後に2023年2月に一般公開 | 研究 | ★★★★ |
| 2022年12月19日 | DiT(Diffusion Transformer)論文 arXivに投稿(William Peebles & Saining Xie、UC Berkeley / NYU)─ 拡散モデルのバックボーンをU-NetからTransformerに置換。後のSora、Kling、HunyuanVideoすべてのアーキテクチャ的祖先 | 研究 | ★★★★★ |
DiT論文はarXiv投稿が2022年12月19日、ICCV 2023でOral採択が2023年。この論文の登場が、後に「動画生成AI戦争」の火種となるDiffusion Transformerアーキテクチャを確立した。Sora、Kling、HunyuanVideo、Stable Diffusion 3 ─ 現在の主要モデルのほぼ全てがDiTの子孫である。
3. 商用化の幕開け ─ 一般ユーザーが触れる時代へ(2023年)
2023年は動画生成AIが「研究の世界」から「誰でも使えるツール」へと飛び出した年だ。
| 日付 | イベント | カテゴリ | 重要度 |
|---|---|---|---|
| 2023年2月 | Runway Gen-1 一般公開 ─ 世界初の商用動画生成AIの一つ。動画→動画変換が主機能 | SaaS | ★★★★★ |
| 2023年3月 | DiT論文 ICCV 2023に採択(Oral Presentation)─ アカデミアからも最高評価 | 研究 | ★★★★ |
| 2023年3月11日 | Runway Gen-2 研究発表 ─ テキスト/画像/動画→動画のマルチモーダル生成 | 研究 | ★★★★ |
| 2023年3月20日 | Runway Gen-2 公式発表 ─ Gen-1の数週間後に発表。テキストだけから動画生成が可能に | SaaS | ★★★★★ |
| 2023年3月22日 | NUWA-XL(Microsoft)発表 ─ 拡散モデルベースの長時間高品質動画生成 | 研究 | ★★★ |
| 2023年初頭 | ModelScope Text2Video(Alibaba)公開 ─ 2秒程度の短いクリップ生成。人気のOSSベースラインに | OSS | ★★★ |
| 2023年4月 | Kandinsky 2.1 リリース ─ テキスト-画像の整合性が大幅に向上 | OSS | ★★ |
| 2023年6月3日 | Zeroscope 公開 ─ ModelScopeベースのOSS Text-to-Video、品質改善版 | OSS | ★★★ |
| 2023年6月 | Runway Gen-2 一般利用開始(Web版) ─ テキスト→4秒動画の生成が誰でも可能に | SaaS | ★★★★ |
| 2023年6月28日 | Pika Labs Discordで公開 ─ 手軽なText-to-Video生成で急速にユーザー獲得 | SaaS | ★★★★ |
| 2023年7月10日 | AnimateDiff 公開 ─ Stable Diffusionモデルにモーション機能を追加するプラグイン的アプローチ | OSS | ★★★★ |
| 2023年9月27日 | Show-1(NUS ShowLab)公開 ─ GPU効率を改善した動画生成 | OSS/研究 | ★★ |
| 2023年11月 | Pika 1.0 正式発表 ─ Discord発の動画生成ツールが本格的なプロダクトに | SaaS | ★★★★ |
| 2023年11月21日 | Stable Video Diffusion(SVD) 公開(Stability AI)─ Stable Diffusionファミリー初の動画生成モデル。画像→14〜25フレームの動画を生成。初の本格的OSSビデオ生成モデル | OSS | ★★★★★ |
| 2023年11月27日 | MagicAnimate 公開 ─ 静止画からのモーション転送 | OSS/研究 | ★★★ |
| 2023年12月 | Runway 「General World Models」構想発表 ─ 動画生成を「世界シミュレーション」へと位置づける | 研究 | ★★★ |
2023年の構図:Runway(商用先行)vs Stability AI(OSS先行)vs 中国勢(研究蓄積)。この3つの軸が、2024年以降の爆発的競争の伏線になる。
4. 大爆発 ─ Soraショックと群雄割拠(2024年)
2024年は動画生成AIにとっての「カンブリア大爆発」だった。Soraの衝撃的なデモがすべてを変え、世界中のAIラボが本気で動画生成に参入した。
前半(1月〜6月)
| 日付 | イベント | カテゴリ | 重要度 |
|---|---|---|---|
| 2024年1月15日 | PixVerse 公開 ─ 使いやすさで人気を獲得するクリエイタープラットフォーム | SaaS | ★★★ |
| 2024年1月23日 | Lumiere(Google)発表 ─ 時間的一貫性に優れた拡散ベースの動画生成 | 研究 | ★★★★ |
| 2024年2月13日 | Boximator(ByteDance)発表 ─ バウンディングボックスによるモーション制御プラグイン | 研究 | ★★★ |
| 2024年2月15日 | Sora(OpenAI)発表 ─ 最大60秒のフォトリアリスティック動画をテキストから生成。DiTアーキテクチャ採用。デモ映像の衝撃で世界中が騒然。ただし一般公開はされず | 研究/デモ | ★★★★★ |
| 2024年5月14日 | Veo(Google DeepMind)Google I/O 2024で発表 ─ 1080p、1分超の動画生成。Soraへの対抗馬 | SaaS | ★★★★★ |
| 2024年5月 | CogVideo の系譜 → Text-to-Videoの基盤として継続的に研究発展 | 研究 | ★★★ |
| 2024年6月6日 | Kling(可灵)(快手 / Kuaishou)公式サイト公開・テスト開始 ─ DiTアーキテクチャ、最大2分・1080p・30fps。中国発のSora対抗馬として一躍注目 | SaaS | ★★★★★ |
| 2024年6月12日 | Dream Machine(Luma Labs)一般公開 ─ テキスト/画像→5秒動画。Transformerベースで物理的に正確な動画生成 | SaaS | ★★★★ |
| 2024年6月17日 | Runway Gen-3 Alpha 発表 ─ 忠実度・一貫性・モーションがGen-2から大幅向上。10秒クリップ生成 | SaaS | ★★★★★ |
後半(7月〜12月)
| 日付 | イベント | カテゴリ | 重要度 |
|---|---|---|---|
| 2024年7月31日 | Vidu(生数科技 / Shengshu Technology × 清華大学)公開 ─ 中国のAI動画生成スタートアップ | SaaS | ★★★ |
| 2024年8月6日 | CogVideoX 公開 ─ CogVideoの後継OSS、6秒クリップ生成 | OSS | ★★★★ |
| 2024年9月1日 | Hailuo AI / video-01(MiniMax)公開 ─ プロンプト追従性と柔軟性で評価される中国発SaaS | SaaS | ★★★★ |
| 2024年9月11日 | Adobe Firefly Video 発表(ウェイトリスト) ─ 著作権クリアな学習データを売りにした商用利用特化モデル | SaaS | ★★★ |
| 2024年10月4日 | Movie Gen(Meta)発表 ─ 編集・顔統合・Text-to-Video | 研究 | ★★★★ |
| 2024年10月10日 | Pyramid Flow 公開 ─ Flow Matchingを用いたオートレグレッシブ手法のOSS | OSS | ★★★ |
| 2024年10月 | Mochi 1(Genmo AI)公開 ─ OSS動画生成モデル | OSS | ★★★ |
| 2024年10月 | Haiper 公開 ─ ロンドン発のAI動画生成プラットフォーム | SaaS | ★★★ |
| 2024年11月22日 | LTX-Video(Lightricks)公開 ─ 滑らかな24FPS動画を生成するOSSモデル | OSS | ★★★★ |
| 2024年12月3日 | HunyuanVideo(Tencent)公開 ─ 130億パラメータ、当時最大のOSS動画生成モデル。DiTアーキテクチャの「Dual-Stream to Single-Stream」設計。Apache 2.0ライセンスではないがコミュニティライセンスで公開 | OSS | ★★★★★ |
| 2024年12月9日 | Sora Turbo(OpenAI)一般公開 ─ 2月のデモから約10ヶ月。ChatGPT Plus/Proユーザー向け。最大1080p・20秒。ただし期待値との落差も指摘される | SaaS | ★★★★★ |
| 2024年12月16日 | Veo 2(Google DeepMind)公開 ─ VideoFX経由。4K解像度対応、物理シミュレーションの理解が向上 | SaaS | ★★★★★ |
| 2024年12月19日 | Kling 1.6 リリース ─ Image-to-Video品質が旧バージョン比195%向上と発表 | SaaS | ★★★★ |
2024年は動画生成AIの「iPhone登場」的な年だった。年初のSora発表が雷管となり、Google(Veo)、快手(Kling)、Luma(Dream Machine)、MiniMax(Hailuo)、Tencent(HunyuanVideo)が一気に参入。年末にはSoraが一般公開されたものの、その頃には競合が追いつき、「Sora一強」という構図にはならなかった。
5. 成熟と淘汰 ─ 音声統合と世界モデルへ(2025年)
2025年は「動画を作る」から「世界をシミュレーションする」への転換が始まった年だ。
| 日付 | イベント | カテゴリ | 重要度 |
|---|---|---|---|
| 2025年2月3日 | OmniHuman-1(ByteDance)発表 ─ リアルなリップシンクと人体モーション特化 | 研究 | ★★★ |
| 2025年2月4日 | VideoJAM(Meta)発表 ─ 動画生成におけるモーションリアリズム改善フレームワーク | 研究 | ★★★ |
| 2025年2月22日 | Wan 2.1(Alibaba / 通義実験室)公開 ─ Apache 2.0ライセンスの完全OSS動画生成モデル。LoRAファインチューニング対応で高いカスタマイズ性 | OSS | ★★★★★ |
| 2025年3月31日 | Runway Gen-4 発表 ─ モーション柔軟性とリファレンス画像統合が向上 | SaaS | ★★★★ |
| 2025年4月15日 | Kling 2.0 発表(北京イベント)─ Multimodal Visual Language(MVL)フレームワーク導入 | SaaS | ★★★★ |
| 2025年5月 | Kling 2.1 リリース ─ 品質モード選択機能追加 | SaaS | ★★★ |
| 2025年5月20日 | Veo 3(Google DeepMind)リリース ─ 動画と同時に音声(台詞・効果音・環境音)を生成する初の主要モデル。「音声付き動画生成」時代の幕開け | SaaS | ★★★★★ |
| 2025年6月12日 | Seedance 1.0(ByteDance)公開 ─ Veo 3対抗の低コスト動画生成 | SaaS | ★★★★ |
| 2025年7月 | LTX-Video アップデート ─ 最大60秒のクリップ生成に対応 | OSS | ★★★ |
| 2025年7月8日 | Marey(Moonvalley & Asteria Film)公開 ─ ライセンス済みデータのみで学習した点が特徴 | SaaS | ★★★ |
| 2025年9月30日 | Sora 2(OpenAI)発表 ─ iOSアプリ同時リリース。物理シミュレーション精度の大幅向上、「Characters」機能で自分自身を動画に登場させることが可能に。ソーシャル機能搭載 | SaaS | ★★★★★ |
| 2025年10月 | LTX-2(Lightricks)リリース ─ 音声生成機能を内蔵 | OSS | ★★★★ |
| 2025年10月15日 | Veo 3.1(Google DeepMind)公開 ─ 4K動画 + ネイティブ音声同期。物語コントロールとリアリズムが向上 | SaaS | ★★★★ |
| 2025年12月1日 | Kling O1 リリース ─ 統合マルチモーダル動画モデル | SaaS | ★★★★ |
| 2025年12月3日 | Kling 2.6 リリース ─ 映像と音声の同時生成に対応。サイレント映像→後から音声追加のワークフローを根本から刷新 | SaaS | ★★★★★ |
| 2025年12月 | Runway Gen-4.5(コードネーム "David")発表 ─ 複雑な物理・リアルな人体動作・因果関係の理解。Video Arenaリーダーボードで高評価 | SaaS | ★★★★★ |
6. 現在地 ─ 2026年の風景
| 日付 | イベント | カテゴリ | 重要度 |
|---|---|---|---|
| 2026年1月31日 | Kling 3.0(快手)グローバルリリース ─ Video 3.0 / Video 3.0 Omni / Image 3.0 / Image 3.0 Omni。最大15秒動画、多言語音声生成、マルチショットストーリーボード機能 | SaaS | ★★★★★ |
| 2026年2月 | Seedance 2.0(ByteDance)公開 ─ 15秒生成、リアリスティック生成で高評価。ただしMPAから著作権問題で批判も | SaaS | ★★★★ |
| 2026年2月 | MiniMax-M2.5 リリース(MiniMax)─ Hailuoの基盤となるLLMファミリーの最新版 | 基盤モデル | ★★★ |
| 2026年3月 | Wan 2.7(Alibaba)公開 ─ First/Last Frame制御、最大5本の参照動画入力、最大15秒生成、自然言語ベースの動画編集 | OSS | ★★★★★ |
| 2026年3月31日 | Veo 3.1 Lite(Google DeepMind)公開 ─ Veoファミリー最安、720pで$0.05/秒 | SaaS | ★★★ |
| 2026年4月 | Veo 4(Google DeepMind)リリース ─ ストーリーボード機能、10〜30秒動画生成 | SaaS | ★★★★★ |
| 2026年4月(現在) | Hailuo 2.3(MiniMax)公開 ─ 物理動作・スタイライゼーション・キャラクター微表情が向上。グローバルコスパ記録更新と発表 | SaaS | ★★★★ |
7. アーキテクチャの系譜図
動画生成AIの技術的系譜を整理すると、大きく3つの時代に分けられる。
DiT(Diffusion Transformer)の登場が、動画生成AIの「パラダイムシフト」だったことが分かる。2024年以降の主要モデルのほぼすべてがDiTアーキテクチャ、またはその派生を採用している。
8. 勢力図の変遷
プレイヤー分類(2026年4月現在)
米国テック大手: OpenAI(Sora)、Google DeepMind(Veo)、Meta(Movie Gen)
米国スタートアップ: Runway、Luma Labs、Pika Labs
中国テック大手: 快手(Kling)、Tencent(HunyuanVideo)、Alibaba(Wan)
中国スタートアップ: MiniMax(Hailuo)、生数科技(Vidu)
OSSコミュニティ: Stability AI(SVD)、Lightricks(LTX-Video)、各種研究機関
時代ごとのリーダー
| 時期 | リーダー | 特徴 |
|---|---|---|
| 2023年前半 | Runway Gen-2 | 商用化の先駆者、一人勝ち |
| 2023年後半 | Runway + Pika | 2強体制、SVDがOSS側で台頭 |
| 2024年前半 | Sora(デモ段階) | 衝撃だが触れない。Kling・Lumaが台頭 |
| 2024年後半 | 群雄割拠 | Kling・Hailuo・Runway Gen-3・Sora一般公開・Veo2 |
| 2025年 | Veo 3 + Kling 2.x | 音声統合が新基準に。Sora 2は社会機能で差別化 |
| 2026年 | Kling 3.0 + Veo 4 + Wan 2.7 | 商用SaaSとOSSの二極化が加速 |
9. OSS vs クローズドの変遷
動画生成AIの歴史は、常にOSSと商用の間の緊張関係の中にあった。
| 時期 | OSS | クローズド | 備考 |
|---|---|---|---|
| 2022年 | CogVideo | Make-A-Video, Imagen Video | OSSが先行したが品質では劣後 |
| 2023年 | SVD, AnimateDiff | Runway Gen-2, Pika | 商用サービスが品質リード |
| 2024年 | CogVideoX, HunyuanVideo, LTX-Video | Sora, Veo, Kling | OSSが急速にキャッチアップ |
| 2025年 | Wan 2.1(Apache 2.0), LTX-2 | Veo 3, Sora 2, Kling 2.x | Wan 2.1が完全OSSの決定版に |
| 2026年 | Wan 2.7 | Kling 3.0, Veo 4 | 品質差は縮小。カスタマイズ性でOSSが有利 |
まとめ
振り返ると、動画生成AIの歴史は4つの「転換点」で語れる。
- 2022年12月 ─ DiT論文の登場: U-Net一辺倒だった拡散モデルの世界にTransformerが持ち込まれた。これがなければSoraもKlingも存在しない
- 2024年2月15日 ─ Sora発表: 「動画はAIで作れる」という認識を世界中に植え付けた。デモ映像のインパクトは画像生成AIのDALL-E 2発表を超えていた
- 2024年12月 ─ OSS大爆発: HunyuanVideo(130億パラメータ)とLTX-Videoの公開で、OSSでも商用品質の動画生成が可能になった
- 2025年5月 ─ Veo 3の音声統合: 動画と音声を同時生成する新パラダイムが始まった。以降、音声なしの動画生成は「不完全」とみなされるようになった
そして2026年4月現在、まだこの技術は加速の最中にある。1年前に「すごい」と思っていた4秒のぎこちない動画は、今では15秒のシネマティック映像 + 同期音声に進化している。正直、1年後に何が起きているか想像もつかない...草
この年表は2026年4月13日時点の情報に基づいています。この分野は変化が極めて速いため、公開後すぐに情報が古くなる可能性があります。最新情報は各サービス・プロジェクトの公式サイトで確認してください。
参考文献
- DiT論文: "Scalable Diffusion Models with Transformers" (Peebles & Xie, 2022) - arXiv:2212.09748
- Sora技術レポート (OpenAI, 2024/02)
- HunyuanVideo論文 (Tencent, 2024/12) - arXiv:2412.03603
- Stable Video Diffusion (Stability AI, 2023/11)
- Kling AI 公式
- Veo (Google DeepMind)
- Wan (Alibaba)