LoginSignup
0
1

More than 3 years have passed since last update.

3D facial animation + speech animation サーベイ

Last updated at Posted at 2018-12-16

目的

  • speech(audio, tts)と 3D facial animation を組み合わせる

References

Dynamic Units of Visual Speech
https://www.disneyresearch.com/publication/dynamic-units-of-visual-speech/

SIGRAPH 2017 SPEECH AND FACIAL ANIMATION
http://s2017.siggraph.org/technical-papers/sessions/speech-and-facial-animation.html

VISEMENET: AUDIO-DRIVEN ANIMATOR-CENTRIC SPEECH ANIMATION
https://s2018.siggraph.org/presentation/?id=papers_171&sess=sess146

VOCA: Voice Operated Character Animation(CVPR 2019)
https://voca.is.tue.mpg.de/

Neural Voice Puppetry: Audio-driven Facial Reenactment
https://arxiv.org/abs/1912.05566

Realistic Speech-Driven Facial Animation with GANs
https://arxiv.org/abs/1906.06337
https://sites.google.com/view/facial-animation

2019/12 時点のまとめ

方向性として, 自動で自然な感じで喋る(e.g. text-to-speech) + 3D or フォトリアリスティックレンダリングな論文

  • Neural Voice Puppetry : 2D neural rendering であるが, 画像の品質は高い. リアルタイム生成可
    • audio から感情も推定(DeepSpeech 利用)
  • VOCA : 3D 系だとこちらが State of the art か? ただし形状のみ.
  • Realistic Speech-Driven Facial Animation with GANs
    • 画像は荒いが, 音声とビジュアルはよくマッチしている

ツール 

DeepSpeech. ASR(音声認識)
https://github.com/mozilla/DeepSpeech

Montreal Forced Aligner. テキストと音声からアラインメント(phonemes とその位置など)を抽出する.
https://montreal-forced-aligner.readthedocs.io/en/latest/

PRAAT

上記 MFA などで出力した alighment 情報から, phone の pitch と intensity mean/min/max を求める.

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1