1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

動画生成AIの整理

Last updated at Posted at 2024-12-24

動画生成AIを整理してみる。
ただし、一枚の画像から3Dモデルを作り、3D回転する動画を作成するタイプのモデルは原理が異なるため除いた。
モデルパラメータ数は拡散モデルであるTransformer(DiT:Diffusion Transformer)だけを調べ、VAEやTextEncoderはカウントしていない。

LLM for Videos

Diffusion Transformers (DiTs):2022/12

Gen-2(Runway:2023/08)

MagicAnimate(ByteDance(TikTok):2023/11)

Stable Video Diffusion(Stability AI:2023/11/22)

オープンソース:
モデルパラメータ数:1.5B
1024x576、25フレーム

image.png

この時の比較対象はrunwayのGen-2、Pika Art 1.0かと思われる。

Pika Art 1.0(Pika Labs:2023/11/29)

動画の長さが3秒

Pika Art 1.5(Pika Labs:2024/10/02)

動画の長さが5秒

Pika Art 2.0(Pika Labs:2024/12/14)

DynamiCrafter(Tencent:2024/02/05)

オープンソース:
モデルパラメータ数:2.6B
576x1024、2 seconds、FPS=8

論文にrunwayのGen-2、Pika Art 1.0との性能比較がある。
image.png

Sora(OpenAI:2024/02/15発表、2024/12/09公開)

1920x1080p、最長20秒

Open-Sora(:2024/03/18~)

Open-Sora 1.0:2024/03/18
Open-Sora 1.1:2024/04/25
Open-Sora 1.2:2024/06/17
オープンソース:
モデルパラメータ数:1.1B

Veo(Google:2024/05/15)

映像の解像度は1080p(1920×1080)で、1分を超える映像の出力も可能。

Dream Machine(Luma AI:2024/06)

5秒の動画

Dream Machine 1.5(Luma AI:2024/08/20)

Gen-3 Alpha(Runway AI:2024/06/17)

720p (1280x768)、動画の尺は5秒 or 10秒

Gen-3 Alpha Turbo(Runway AI:2024/08/15)

Open-Sora Plan 1.2(:2024/07/24)

Open-Sora Plan 1.3(:2024/10/16)
オープンソース:
モデルパラメータ数:2.8B
93x640x640

Vidu(生数科技(Shengshu Technology):2024/08/04)

最高1080P(フルHD)(1920×1080)、4秒の動画。

CogVideoX(Zhipu AI:2024/08/06)

オープンソース:
モデルパラメータ数:2B、5B

Gen2やPika、Open Soraには勝っている。

image.png

Kling 1.5(快手(Kuaishou):2024/09/19)

・KLING 1.0:1280 x 720
・KLING 1.5:1920 x 1080
Standard(5s) : 10
Pro (5s) :35
Pro (10s) : 70

Hailuo AI(MiniMax:2024/09)

720p(1280×720)の解像度と25fpsで6秒

Movie Gen(Meta:2024/10/04)

モデルパラメータ数:30B
1080p(1920×1080)、最長16秒、16フレーム/秒

オープンソースでないにも関わらずモデルパラメータ数が判明しているのはこれくらいである。他のモデルはパラメータ数は明らかになってない。
image.png

Meta社CEOのマーク・ザッカーバーグ氏によれば、Movie Genは2025年にInstagram上で公開される可能性を示しています。

以下の表はMovie Genの(win rate-lose rate)性能評価でSoraに対して平均して勝っており、Kling1.5とはRealness, Aesthetics(現実感、美的評価)で大きく勝ってるがText-alignmentでは若干負けてる。

image.png

Pyramid Flow(快手(Kuaishou):2024/10/10)

モデルパラメータ数:2B(SD3相当?)
10s, 768p, 24fps

論文に性能比較がある。CogVideoX-5Bと同程度でKlingやGen-3 Alphaにはやや勝ててない。
image.png

Adobe Firefly Video Model(Adobe:2024/10/14)

Haiper-2.0(Haiper:2024/10/21)

1080p、2秒から4秒

Allegro(Rhymes AI:2024/10/22)

オープンソース:
モデルパラメータ数:2.8B
720x1280x88、6 seconds @ 15 FPS

論文に性能比較がある。CogVideoXと同程度でKlingやGen-3、Hailuo(MiniMax)には勝ててない。
image.png

Mochi 1(GenmoAI:2024/11/06)

オープンソース:
モデルパラメータ数:10B
480p(720×480)、最大5.4秒間

KlingやDream Machine(Luma)、Gen-3あたりに評価で勝っている。

image.png

LXT-Video(Lightricks:2024/11/24)

オープンソース:
モデルパラメータ数:2B
768x512解像度で121フレーム

Nova Reel(Amazon:2024/12/03)

HunyuanVideo(Tencent:2024/12/03)

オープンソース:
モデルパラメータ数:13B
1280x720解像度で129フレーム

image.png

性能比較でGEN-3 alphaやLuma1.6あたりに勝っている。評価方法に自信がないのかCNTopA、CNTopB、CNTopCは匿名モデルとなっているが名前を伏せる意味がよく分からない。「オープンソースではない」とあるためMovie Gen、Kling 1.5、Kling 1.0、Hailuo AI(MiniMax)、Soraあたりなのかと推察する。
image.png

image.png

Veo2(Google:2024/12/16)

最大4Kの解像度で数分尺の動画を作成できるという。

image.png

性能比較でMovie Gen、Kling 1.5、Hailuo AI(MiniMax)、Sora相手に優位である。
SoraはVeo2に対してMovie Gen、Kling 1.5、Hailuo AI(MiniMax)あたりよりも負けてるが性的な描写やキャラクターの描写に制限が掛かると聞いたことがあるのでその制限でSoraの評価が若干不利なのかもしれない。

FastHunyuan、FastMochi(Hao AI Lab:2024/12/18)

単なるオープンソースモデルの蒸留モデルなのか。

動画生成AIのArena-Leaderboard

2024/12/24時点では以下。
Eloレート50差は5%程度しか勝率が変わらないので1050~1100あたりは割と僅差である。
Leaderboardになく他に高性能だと思われるのはMovie Gen(Meta)とVeo2(Google)が挙げられる。

image.png

まとめ

オープンソースであるHunyuanVideoやMochi 1は意外と健闘している。Movie Gen(Meta)も今後公開される可能性はある。
この分野の技術の進歩はこの一年で目まぐるしく、特に中国勢の進捗が大きい。
画像生成AIと動画生成AIの違いは2D-VAEではなく3D-VAEでフレーム方向にも間引きされている点。拡散モデルは2次元のUnetモデルではなく、3次元データを1次元に変換した1次元のTransformerである点。DiTを通った1次元データを再び3次元に戻し、3D-VAEのDecoderで動画に変換する。

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?