0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【論文紹介】1枚の画像から無限の長さの動画を生成するAI「StableAvatar」とは?

Posted at

こんにちは!株式会社 HIBARI の中野と申します。

今回は、一枚の画像と音声から、無限の長さのアバター動画を生成できると話題の論文「StableAvatar」を紹介します。

この技術は、これまでの動画生成AIが抱えていた多くの課題を解決する可能性を秘めています。まずは、その課題から見ていきましょう。

これまでの動画生成技術の課題

AIによる動画生成技術は日々進化しています。しかし「話すアバター」の動画を作る際には大きな課題がありました。

1. 時間が経つと顔が崩れる(一貫性の喪失)

長い動画を生成しようとすると、フレームが進むにつれてAIが元の顔の特徴を忘れてしまいます。その結果、全くの別人になったり顔が崩れたりする問題がありました。

2. 不自然な口の動き

音声と口の動きを正確に合わせるのは非常に難しかったです。生成された動画はどこか不自然な「吹き替え感」が多くありました。

3. 品質の劣化とエラーの蓄積

動画が長くなればなるほど、最初のフレームで発生したわずかなエラーが次のフレーム、その次のフレームと雪だるま式に大きくなってしまいました。最終的には、動画として破綻してしまいます。

4. 面倒な後処理が必要

今までのモデルではこれらの問題を解決するために多くの後処理をしていました。例えば動画を生成した後に顔を入れ替えたり(フェイススワップ)、画質を向上させたりといったことをしていました。

このような課題があったため、長尺で高品質なアバター動画を手軽に作ることは非常に困難でした。しかし、今回発表された「StableAvatar」はこれらの問題を解決することができます!

StableAvatarとは?

StableAvatarとは、音声一枚の画像を基に、無限の長さで高品質なアバター動画を生成するための、新しい動画拡散Transformerです。

先ほど挙げたような従来モデルの課題を独自のアーキテクチャによって克服し、後処理なしで自然な動画を生成できます。

StableAvatarのここがすごい!

1. 無限の長さの動画を生成可能

StableAvatarは、独自の「Timestep-aware Audio Adapter」によって、長い動画を生成する際に起こりがちだったエラーの蓄積を大幅に削減することができます。これにより、理論上無限の長さの動画でも顔の一貫性を保ったまま生成できるようになりました。

2.高い品質と一貫性

音声との同期や、人物の一貫性を保つための新しい仕組み「Audio Native Guidance Mechanism」を導入しました。これにより、非常に自然で高品質な動画の生成が可能です。

3.生成速度が速い

他の多くのモデルよりも、少ない計算能力(小さいモデル)で、より高品質な動画を作ることができます。また、他のモデルの半分ほどのメモリで、10倍速く動画を生成できます

4. 後処理が不要

従来のモデルでは必須だった顔のスワップや修復などの後処理が、StableAvatarでは一切不要です。一枚の画像と音声だけで、完成度の高い動画を直接生成できます。

公式デモに見る、その驚きのクオリティ

「実際にどれくらいの動画が作れるの?」と気になる方も多いでしょう。論文の公式サイトGitHubページでは、StableAvatarによって生成された多数のデモ動画が公開されています。

それらの動画を見ると、以下のような驚くべき点が確認できます。

  • 非常に滑らかなリップシンク
    音声に合わせて口が自然に動き、母音や子音の発音まで表現されているかのように見えます。

  • 自然な頭の動きやまばたき
    口元だけでなく、音声のトーンに合わせて微妙に頭が揺れたり、自然なタイミングでまばたきをしたりと、人間らしい動きが再現されています。

  • 人物のアイデンティティ維持
    数分間にわたる長い動画でも、顔の特徴が崩れることなく、一貫して同じ人物として認識できます。アニメ風のイラストから写実的な人物まで、多様なスタイルに対応している点も注目です。

百聞は一見にしかず、です。ぜひ一度、公式ページでそのクオリティを確かめてみてください。

まとめ

今回は、一枚の画像と音声から無限の長さの動画を生成できる「StableAvatar」を紹介しました。

  • 無限の長さの動画生成
  • 高い品質と一貫性
  • 後処理が不要

といった特徴を持つ、非常に画期的な技術です。

映画制作、ニュースキャスター、バーチャルアシスタントなど、様々な分野での応用が期待されます。

ご自身の環境で試すのが難しい方も、ぜひ公式デモをチェックして、その可能性に触れてみてください。

参考文献

本記事の執筆にあたり、以下の資料を参考にしました。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?