audio と, FLAME テンプレートモデルから, よろしく 3D speech animation を生成する
の推論を動かしてみます.
term of use, ライセンスなどを確認し, 同意できる場合にダウンロードします.
以下はライセンスなど同意できた場合です.
インストールなど
README に従えば, 特に問題なくいけます.
デモの実行
デモスクリプトでは, OpenGL でレンダーして, ffmpeg で動画を作ってくれます.
サーバで実行だと OpenGL がうまくいきません. 手元 PC で動かすのがよいでしょう.
連番 wavefront .obj を吐くことはできるので, .obj だけ吐いて, 必要であればスクリプトを書き換えて, NanoRT https://qiita.com/syoyo/items/1aae159f9b262fbd4aa3 や Embree https://www.embree.org/ で自前 CPU raytracer などでレンダリングするなども手です.
また, ffmpeg が, Ubuntu 16.04 の apt で入る ffmpeg では aac が experimental でうまく生成されませんでした. ffmpeg を最新にしたり, 別の audio codec を指定するか, もしくはとりえずは audio off にして動画生成しましょう.
ねんがんの VOCA(Voice Oriented Character Animation)の推論に成功したぞ!!!! 🎉🎉🎉🎉🎉🎉🎉🎉✌️✌️✌️✌️✌️✌️✌️✌️😍😍😍😍😍😍😍💪💪💪💪💪💪💪🙏🙏🙏🙏🙏🙏🙏 > https://t.co/ZuS1bxhVDd pic.twitter.com/empbZxlMKJ
— Syoyo Fujita 🌸 RayWa(Ray and Peace) (@syoyo) March 15, 2020
TODO
- eyeblink, head pose animation を付与する機能を試す
- deepspeech モデルの最新で試す.
- RingNet https://qiita.com/syoyo/items/3329bcbb5b7eff5c3e7b で生成した FLAME パラメータで試す
- 学習をためす(70GB ものデータセット公開してくれてます! 全部きちんとダウンロードするには時間かかりそうですが...(ときどきダウンロードが切れるため))