動画生成AIを整理してみる。
ただし、一枚の画像から3Dモデルを作り、3D回転する動画を作成するタイプのモデルは原理が異なるため除いた。
モデルパラメータ数は拡散モデルであるTransformer(DiT:Diffusion Transformer)だけを調べ、VAEやTextEncoderはカウントしていない。
LLM for Videos
Diffusion Transformers (DiTs):2022/12
Gen-2(Runway:2023/08)
MagicAnimate(ByteDance(TikTok):2023/11)
Stable Video Diffusion(Stability AI:2023/11/22)
オープンソース:
モデルパラメータ数:1.5B
1024x576、25フレーム
この時の比較対象はrunwayのGen-2、Pika Art 1.0かと思われる。
Pika Art 1.0(Pika Labs:2023/11/29)
動画の長さが3秒
Pika Art 1.5(Pika Labs:2024/10/02)
動画の長さが5秒
Pika Art 2.0(Pika Labs:2024/12/14)
DynamiCrafter(Tencent:2024/02/05)
オープンソース:
モデルパラメータ数:2.6B
576x1024、2 seconds、FPS=8
論文にrunwayのGen-2、Pika Art 1.0との性能比較がある。
Sora(OpenAI:2024/02/15発表、2024/12/09公開)
1920x1080p、最長20秒
Open-Sora(:2024/03/18~)
Open-Sora 1.0:2024/03/18
Open-Sora 1.1:2024/04/25
Open-Sora 1.2:2024/06/17
オープンソース:
モデルパラメータ数:1.1B
Veo(Google:2024/05/15)
映像の解像度は1080p(1920×1080)で、1分を超える映像の出力も可能。
Dream Machine(Luma AI:2024/06)
5秒の動画
Dream Machine 1.5(Luma AI:2024/08/20)
Gen-3 Alpha(Runway AI:2024/06/17)
720p (1280x768)、動画の尺は5秒 or 10秒
Gen-3 Alpha Turbo(Runway AI:2024/08/15)
Open-Sora Plan 1.2(:2024/07/24)
Open-Sora Plan 1.3(:2024/10/16)
オープンソース:
モデルパラメータ数:2.8B
93x640x640
Vidu(生数科技(Shengshu Technology):2024/08/04)
最高1080P(フルHD)(1920×1080)、4秒の動画。
CogVideoX(Zhipu AI:2024/08/06)
オープンソース:
モデルパラメータ数:2B、5B
Gen2やPika、Open Soraには勝っている。
Kling 1.5(快手(Kuaishou):2024/09/19)
・KLING 1.0:1280 x 720
・KLING 1.5:1920 x 1080
Standard(5s) : 10
Pro (5s) :35
Pro (10s) : 70
Hailuo AI(MiniMax:2024/09)
720p(1280×720)の解像度と25fpsで6秒
Movie Gen(Meta:2024/10/04)
モデルパラメータ数:30B
1080p(1920×1080)、最長16秒、16フレーム/秒
オープンソースでないにも関わらずモデルパラメータ数が判明しているのはこれくらいである。他のモデルはパラメータ数は明らかになってない。
Meta社CEOのマーク・ザッカーバーグ氏によれば、Movie Genは2025年にInstagram上で公開される可能性を示しています。
以下の表はMovie Genの(win rate-lose rate)性能評価でSoraに対して平均して勝っており、Kling1.5とはRealness, Aesthetics(現実感、美的評価)で大きく勝ってるがText-alignmentでは若干負けてる。
Pyramid Flow(快手(Kuaishou):2024/10/10)
モデルパラメータ数:2B(SD3相当?)
10s, 768p, 24fps
論文に性能比較がある。CogVideoX-5Bと同程度でKlingやGen-3 Alphaにはやや勝ててない。
Adobe Firefly Video Model(Adobe:2024/10/14)
Haiper-2.0(Haiper:2024/10/21)
1080p、2秒から4秒
Allegro(Rhymes AI:2024/10/22)
オープンソース:
モデルパラメータ数:2.8B
720x1280x88、6 seconds @ 15 FPS
論文に性能比較がある。CogVideoXと同程度でKlingやGen-3、Hailuo(MiniMax)には勝ててない。
Mochi 1(GenmoAI:2024/11/06)
オープンソース:
モデルパラメータ数:10B
480p(720×480)、最大5.4秒間
KlingやDream Machine(Luma)、Gen-3あたりに評価で勝っている。
LXT-Video(Lightricks:2024/11/24)
オープンソース:
モデルパラメータ数:2B
768x512解像度で121フレーム
Nova Reel(Amazon:2024/12/03)
HunyuanVideo(Tencent:2024/12/03)
オープンソース:
モデルパラメータ数:13B
1280x720解像度で129フレーム
性能比較でGEN-3 alphaやLuma1.6あたりに勝っている。評価方法に自信がないのかCNTopA、CNTopB、CNTopCは匿名モデルとなっているが名前を伏せる意味がよく分からない。「オープンソースではない」とあるためMovie Gen、Kling 1.5、Kling 1.0、Hailuo AI(MiniMax)、Soraあたりなのかと推察する。
Veo2(Google:2024/12/16)
最大4Kの解像度で数分尺の動画を作成できるという。
性能比較でMovie Gen、Kling 1.5、Hailuo AI(MiniMax)、Sora相手に優位である。
SoraはVeo2に対してMovie Gen、Kling 1.5、Hailuo AI(MiniMax)あたりよりも負けてるが性的な描写やキャラクターの描写に制限が掛かると聞いたことがあるのでその制限でSoraの評価が若干不利なのかもしれない。
FastHunyuan、FastMochi(Hao AI Lab:2024/12/18)
単なるオープンソースモデルの蒸留モデルなのか。
動画生成AIのArena-Leaderboard
2024/12/24時点では以下。
Eloレート50差は5%程度しか勝率が変わらないので1050~1100あたりは割と僅差である。
Leaderboardになく他に高性能だと思われるのはMovie Gen(Meta)とVeo2(Google)が挙げられる。
まとめ
オープンソースであるHunyuanVideoやMochi 1は意外と健闘している。Movie Gen(Meta)も今後公開される可能性はある。
この分野の技術の進歩はこの一年で目まぐるしく、特に中国勢の進捗が大きい。
画像生成AIと動画生成AIの違いは2D-VAEではなく3D-VAEでフレーム方向にも間引きされている点。拡散モデルは2次元のUnetモデルではなく、3次元データを1次元に変換した1次元のTransformerである点。DiTを通った1次元データを再び3次元に戻し、3D-VAEのDecoderで動画に変換する。