Supershipの名畑です。人生において私のそばに常にいる存在といえば週刊少年ジャンプなわけですが、買い続けている理由の一つが僕のヒーローアカデミアでした。連載終了おめでとうございます。これまでありがとうございます&お疲れ様でした。
そしてまったく関係ないですがニコニコ動画の復活もお疲れ様でした&ありがとうございます。私の人生を支えてくれているWebサービスと言っても過言ではありません。
はじめに
具体的には、これまでのリップシンクがImage to Videoだったのに対し、Video to Videoが可能である点。この一点で価値があります。HeyGen、D-ID、SadTalker、Hedra、Character-1、いずれも元になる静止画を参照してリップシンクできますが、すでにできてしまった動画に、音声だけをリップシンクさせるということはできませんでした。
動画と音声ガッチャンコでなんでもAI口パク「sync.」。リップシンクはVideo to Videoの時代に突入した(CloseBox) | テクノエッジ TechnoEdge
ということで話題のsync.を実際に使ってみました。
Web APIも用意されていますが、今回はブラウザ上での動画生成を行います。
ログイン
sync.のトップページでloginかtry for freeをクリックすとlogin画面に遷移します。ページ下部に「Don't have an account? Sign up」と書かれたリンクがあるので、ここをクリックするとSign upのページです。
メールアドレス、Googleアカウント、Githubアカウントのいずれかが使えます。
メールアドレスの場合は登録したアドレスに認証用のメールが届きますので、そちらに従います。
loginが完了して、いくつかアンケート的なものに答えます。
すると実際に使うことができるようになります。
元動画
今回は過去記事「話題の動画生成AIサービス「Gen-3 Alpha」と「Dream Machine」を比較してみた」で作成した以下の動画を用います。以下はアニメーションGIFですが、実際はmp4です。
ほぼ唇が動いていない動画ですね。
音声と同期した動画の生成
new projectを選択します。
するとvideoとaudioの指定画面に遷移します。
音声は「text to audio」を選ぶと、元ファイルがなくても読み上げてもらうことができます。実際は既存音声が存在するユースケースの方が多い気はしますが、今回は「text to audio」で「足つぼの科学的根拠を教えてよ」と読んでもらうことにします。
この言葉に特に深い理由はないです。私が足つぼ好きなだけです。
声質を選ぶことができますので、ここでは「Young Ameridcan Female」としました。
Modelはデフォルトのままでsyn-1.7.1-betaとしています。
generateを押してしばらく待ちます。
結果
音声付きのためアニメーションGIFにできず、YouTubeにアップしました。唇の動きが小さいため、低解像度での再生だとわからないかもしれません。
唇と音声がきっちり同期しているかはともかく、元々ほとんど動いていなかった唇が動いてはいます。
生成過程を知らずに見せられれば、そこまで違和感を持たない気もします。
ただ、唇が小さいからか、わかりづらいですね。
せっかくなのでもう一つ試してみます。
別の過去記事「Stable Video DiffusionのWeb API呼び出しをPythonで実装して静止画を動画にしてみた」で生成した以下を元にして生成してみました。
読み上げる言葉は「足つぼの科学的根拠を教えてよ」、声質は「Young Ameridcan Female」で、どちらも先ほどと同じ選択としました。
結果は以下です。正方形だとショート動画扱いになってしまうため、両脇に黒帯をつける修正のみしています。
こちらも自然とまでは言い切れないですが、唇並びにその周辺だけがそれっぽく動く結果にはなっていますね。
最後に
動画生成に至る過程の気軽さがなによりも大きいですね。
宣伝
SupershipのQiita Organizationを合わせてご覧いただけますと嬉しいです。他のメンバーの記事も多数あります。
Supershipではプロダクト開発やサービス開発に関わる方を絶賛募集しております。
興味がある方はSupership株式会社 採用サイトよりご確認ください。