Voice2Videoの動画生成AIまとめ

Last updated at 2024-05-09Posted at 2023-10-09

生成AI業界では多くのオープンソースプロジェクトが乱立しており、その全てを把握するのは困難です。特に、何を入力して、どんなデータが出力されるのか、1発で理解するのは難しいです。

本記事では、顔面の生成AI技術を活用したオープンソースプロジェクトを用途ごとに整理し、わかりやすく紹介します。

技術の分類

顔面の動画生成といえど、その種類は多く存在します

音声 + ベースの顔画像: 入力画像で、音声に合わせてリップシンクや適度に顔を動かす。
顔や頭の動きがある動画 + ベースの顔画像: 元動画の口元や顔の動きをトレースし、ベースの顔画像で動画を生成。
表情画像 + 基本顔画像 + オーディオ: "表情画像"の表情を反映させ、音声に合わせてリップシンクや顔の動きを生成。
顔向きの調整: 音声に合わせて顔の向きを調整する。

音声＋ベースの顔画像→動画

Sadtalker

とりあえず、一枚の顔面画像とオーディオから動画を生成するなら、Sadtalkerが一番おすすめです。

自分の手元で動かしたデモ動画

口だけが動いており少々違和感がありますが、「どれだけ頭を動かすか」は設定で調整できます。ただ、大きく動かすとその分、破綻が目立つようになります。例えば、顔周辺以外の髪の毛などは、顔の動きに追従して動いてくれたりはしません。

また、一番右の映像no瞬きやポーズを抽出して、映像に反映することができます。

そのほかにも、どれだけ頭が回転するかを指定して、オーディエンスに話しかけるように首を回すような仕草をさせたり、3Dのフェイスマスクを出力したりできます。詳しくは、公式リファレンスを参照ください。

機能以外の最大の特徴としては、Stable Diffusion Web UIに組み込んで使うことができるという点です。外部の解説記事があるので、それを参考に導入してみてください。

MacOSで動く、軽量版も

基本的に機械学習のモデルはMacOSのMPS（Metal Performance shaders、MacにおけるGPU）に最適化されていませんが、SadtalkerではMacOSのための軽量版も用意されています。

顔画像のレンダリングをPIRenderに置き換えることで、開発者によると、CPUの場合で10倍、GPUを使えばさらに60倍早くなるとのことです。詳しくはGithubのDisccussionをご覧ください。もしかしたら、今後解説するかもしれません。

Githubリンク

One-shot talking face colab

自分の手元で動かしたデモ

公式デモ

かなり自然な動画になっているのがわかると思います。

Sadtalkerよりも一見クオリティーは高いのですが、SadtalkerのようにWebUIもなく、またOpen Faceというライブラリーを用いる必要があるので、環境構築の難易度は高めです。自分はM1 Macbook上でどうしても動かしたかったので、自分でバイナリファイルのビルドを試みましたが、諦めました…~~（誰かビルドできたらください）~~