AI・機械学習関連論文Advent Calendar 2024

動画生成に関連する最近のLLM

Posted at 2024-12-07

動画生成などコンピュータービジョンに関するLLMの論文を2つ紹介します。

きめ細かなストーリーテリングビデオの生成「DreamRunner」

入力されたテキストに沿ったビデオの生成、SVG(Story Telling Generation) をより質高く行うことができる生成手法「DreamRunner」が発表されました。

GitHubでサンプル動画を観ることができます。

これまでのSVGには次のような課題がありました。

この課題に対して、大きく3つの工夫をしました。

オブジェクトやシーンに一貫性のある動画をつくることができます。
一番下がDreamRunnerです！

まずはここで動画を観るとわかりやすいです！1視点の動画をマルチビューにすることができます。

リンクはこちらです。

これはCAT4Dというモデルで、単眼の入力映像からダイナミックな3Dシーンをつくることができます。

2つのステップによってこのようなスムーズなマルチビューを実現しています。

DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation