More than 1 year has passed since last update.

動画生成AIの動向について

Last updated at 2023-12-08Posted at 2023-12-08

本記事は、Japan Digital Design Advent Calendar 2023 の8日目の記事になります。

三菱UFJフィナンシャル・グループ（以下MUFG）の戦略子会社であるJapan Digital Design（以下JDD）のTechnology ＆ Development Division所属の佐藤です。普段はプロジェクトマネージャとして働いています。

動画生成AIの動向について

昨年以来、文章・画像・音声と、生成系AIがトレンドとなっています。
Japan Digtal Design社においても、生成系AIのPoC案件を実施しているチームもあったり、Github Copilotを活用したり、社内のイベントで画像や音声の生成系AIを取り入れたりと、より身近な存在になりつつあります。

私自身も趣味でつよつよGPU RTX4090を購入してしまい、その元を取るために日々発表される生成系AIモデルたちの動作環境構築に明け暮れていますが、その中でも特に力を入れている動画生成AIについて、近日各所からモデルが発表されており、日々目まぐるしく状況が変わってきています。

本記事では、2023年12月6日現在における、動画生成系AIの動向についてまとめてみようと思います。

動画生成ツール・モデルについて

Animatediff

画像を学習しているモデルとモーションを学習しているモデルを利用して、Stable Diffusionベースにプロンプトから16フレーム程度の動画を生成するツール。2023年夏ごろに公開されました。
Github：https://github.com/guoyww/animatediff/

本モデルは公開されてから時間がたっていることもあり、有志により様々な改良が加えられています。

プロンプトにフレーム数＋動作を指定するとそれに準じた動画を生成してくれる「Prompt Travel」
- https://github.com/Kahsolt/stable-diffusion-webui-prompt-travel
ControlNetの連携(棒人間などの動きをもとに動画を生成してくれる)
- https://github.com/Mikubill/sd-webui-controlnet
ループしたGifの作成
など、上記のように、できることが幅広くなってきている印象です。

実際に生成してみた動画

input

positive prompt

best quality,masterpiece,ultra high res,photorealistic,running,cat
2: open big mouth
14: close eye

neagative prompt

EasyNegative,  (raw photo), (worst quality:2), (low quality:2), (normal quality:2), lowers, normal quality, (monochrome:1.2), (grayscale:1.2)

output

stable-diffusion-webui-prompt-travelを利用してframeの動きを指定し、ループGifを作成してみた例。
口を2Frame目で大きく開けているのがわかる。

Stable Video Diffusion

2023年11月22日にStability AIが発表・公開したモデル。1枚のイメージから動画を作成するモデル。

概要ページ：https://ja.stability.ai/blog/stable-video-diffusion
Github：https://github.com/Stability-AI/generative-models
frameあたりの生成時間はほぼ同条件のAnimatediffの出力に比べると明らかに早い。

実際に生成してみた動画

input

上記Animatediffで生成した初期コマをStable Video Diffusionのインプットとして与えた

output

現時点のモーションモデルだけだと得意なものと不得意なものがあるなぁという印象。
(調整できるパラメータとかもまだしっかり見れておらず、正直まだそこまで使いこなせていない気がしますが、、。
あと、webpで出力されたものをgifに変換しているので、少し荒くなっています。)

MagicAnimate

概要ページ：https://showlab.github.io/magicanimate/
Github：https://github.com/magic-research/magic-animate
2023年12月4日。ByteDanceがコードとモデルを発表したのがMagicAnimateです。
インプットとして動作の動画ファイルと人物の静止画を与えると、動画ファイルの動きに合わせて動いてくれるという代物。
棒人間型ではなく。人物と境界の切り抜きの動作ファイルを与える形となります。

inputとoutput

[input] Quest3を装着した私の静止画データ...gifの左側
[input] MagicAnimateで用意されたサンプルのダンスの動画データ...gifの真ん中
[output] ノリノリで踊っている私...gifの右側

思った以上にノリノリに踊ってます。

Animate Anyone

2023年11月30日、アリババの研究グループがAnimate Anyoneを発表しました。
概要ページ：https://humanaigc.github.io/animate-anyone/
Github：https://github.com/HumanAIGC/AnimateAnyone
インプットとして動きの動画ファイルと人物の静止画を与えると、動画ファイルの動きに合わせて動いてくれるという代物ですが、インプットとしてはControlNetのように棒人間の動画ファイルを与える想定の様子。
まだソースコードやモーションモデルなどは公開されていませんが、精度の高さが期待されており、SNSでも注目を集めているモデルになります。

最後に

いずれのモデルも手元にいいマシンがあるならばローカルで環境作って試すこともできますが、
GPUがない方もhuggingfaceのspaceで実験的に動かせるモデルがあったり、Google Colabを利用して少ない初期コストから環境を作ることができます。
もし興味がある方がいれば「常に学び早く実践」ということで、年末年始のお休みの際にでも試してみてはいかがでしょうか。

最後までご覧いただきありがとうございました。

Japan Digital Design株式会社では、一緒に働いてくださる仲間を募集中です。カジュアル面談も実施しておりますので下記リンク先からお気軽にお問合せください。

この記事に関するお問い合わせはこちら

佐藤慎（TDD）
Shin Sato

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up