2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

CVPR2016 Face2Face: Real-time Face Capture and Reenactment of RGB Videosをざっくり日本語訳した

Last updated at Posted at 2016-11-13

リンク

本文

  • abstract

    • 我々は、単眼ターゲットビデオシーケンス(例えば、Youtubeビデオ)のリアルタイムの顔面再現のための新規なアプローチを提示する。

    • ソースシーケンスは単眼ビデオストリームでもあり、商用のウェブカムでライブキャプチャされます。

    • 私たちの目標は、ソース・アクターによるターゲット・ビデオの表情をアニメートし、操作された出力ビデオを現実的な方法で再レンダリングすることです。

    • このため、まず、非剛体モデルに基づくバンドリングによる単眼映像からの顔のアイデンティティの復元に制約のある問題に取り組む。

    • 実行時には、高密度測光一貫性測定法を使用して、ソースビデオとターゲットビデオの両方の表情を追跡します。

    • 復元には、ソースとターゲットの間の迅速かつ効率的な変形伝達によって達成される。

    • 再標的化された表情と最もよく一致する口腔の内部は、ターゲットシーケンスから検索され、正確な適合を生成するように歪められる。

    • 最後に、実際の照明とシームレスにブレンドするように、合成されたターゲットの顔を対応するビデオストリームの上に説得力を持って再レンダリングします。

    • YouTubeの動画をリアルタイムに復元するライブ設定で、この方法を実演します。

  • Introduction

    • 近年、コモディティセンサに基づくリアルタイムのマーカレス顔キャプチャが実証されている。

    • RGB [8、6]およびRGB-Dデータ[31,10,21,4,16]に基づく手法で印象的な結果が得られました。

    • これらの技法は、ビデオゲームおよび映画における仮想CGアバターのアニメーションにますます普及している。

    • 現在、これらの顔のキャプチャとトラッキングアルゴリズムを家庭で実行することが可能です。これは、電話会議などの多くのVRおよびARアプリケーションの基礎となります。

    • 本論文では、最先端の手法と同様に、単眼RGBデータに基づく新しい高密度マーカレス顔キャプチャ手法を採用する。

    • しかし、仮想CGキャラクタに表情を移す代わりに、私たちの主な貢献は、単眼での顔の再現です。

    • オフラインで実行される以前の再現アプローチ[5,11,13]とは対照的に、我々の目標は、RGBセンサによって捕捉されたソースアクタの表情をターゲットアクタにオンライン転送することである。

    • ターゲットシーケンスは任意の単眼ビデオであってもよい。例えば、Youtubeから顔のパフォーマンスでダウンロードされたレガシービデオフッテージである。

    • 私たちは、現実的な方法でターゲットビデオを修正することを目指しており、操作に気付くことは事実上不可能です。

    • 忠実な写実的な顔の再現は、さまざまなアプリケーションの基礎です。例えば、ビデオ会議では、ビデオフィードを翻訳者の顔の動きに合わせることができ、顔のビデオを外国語に納得させることができます。

    • 我々の方法では、事前に記録されたトレーニングシーケンスに基づいた新しいグローバル非剛体モデルベースバンドリング手法を使用して、最初にターゲットアクタの形状アイデンティティを再構成する。

    • この前処理は一連のトレーニングフレームでグローバルに実行されるため、単眼再構成に共通する幾何学的なあいまい性を解決できます。

    • 実行時には、統計的な顔情報に基づいアプローチの合成による高密度な分析によって、ソースアクタとターゲットアクタのビデオの両方の表情を追跡します。

    • 深度データに依存しているオンライントラッキング方法を使用していても、我々のRGB追跡の精度は深度依存の手法の最新のものと同等であることを示しています。

    • ソースからターゲットアクターにリアルタイムで表情を伝送するために,我々は使用された低次元表情空間に直接,変形伝送[27]を適用する新しい伝達関数を提案する.

    • 最終的な画像合成では、伝達された表情係数でターゲットの顔を再レンダリングし、推定された環境照明を考慮して目標ビデオの背景に合成する。

    • 最後に、オフラインサンプルシーケンスから最もよく一致する口形を検索し変形することにより、現実的な口内を生成する新しい画像ベースの口の合成手法を紹介します。

    • 目標の口形の外観を維持していることに注意することが重要です。対照的に、既存の方法は、ソースの口腔領域をターゲットにコピーする[30,11]か、ジェネリック歯プロキシがレンダリングされる[14,29]。どちらも矛盾した結果につながる。 図1に本手法の概要を示す。

    • リアルタイムでソースからターゲットビデオへの表情の伝達を非常に納得のいくものにします。

    • Webカメラでキャプチャされたソースビデオストリームを使用してターゲットのYoutubeビデオを操作するためのライブセットアップで結果を示します。

    • さらに、最先端の再現方法と比較します。これは、結果として得られるビデオ品質とランタイムの両方で優れています(これは初めてのリアルタイムのRGB再現方法です)。

    • 要約すると、私たちの主な貢献は以下のとおりです:

      • 高密度でグローバルな非剛体モデルベースのバンドル。

      • 拘束のないライブRGBビデオでの正確なトラッキング,外観,光の推定.

      • 部分空間変形を用いた人に依存した表情の伝達

      • 新規な口の合成アプローチ。

  • Related Work

    • Offline RGB Performance Capture

      • 最近のオフラインパフォーマンスキャプチャ技術は、ブレンドシェイプ[15]またはマルチリニアフェイス[26]モデルを入力ビデオシーケンスにフィッティングすることによって、単眼の再構築の困難な問題にアプローチします。

      • 逆陰影ベースのサーフェス精製を使用して、幾何学的な微細なサーフェスディテールも抽出されます。

      • Ichim et al[17]は,単眼入力からのパーソナライズされたフェイスリグを構築する。

      • 彼らは、SfMを実行し,特定のキャプチャされたビデオから静的な頭部の再構成を実行し、それがアイデンティティおよび表情モデルにフィッティングする。

      • 個人固有の表情はトレーニングシーケンスから学習されます。

      • Suwajanakorn et al[28]は画像のコレクションからアイデンティティモデルを学習し,model-to-imageフローフィールドに基づいて顔アニメーションをトラッキングする。

      • Shi et al[26]は、選択されたキーフレームの集合のグローバルなエネルギー最適化に基づいて印象的な結果を達成します。

      • アクターのアイデンティティを復元するための我々のモデルベースのバンドリング体系は、彼らのアプローチに似ています。

      • しかし、我々はGPU上で効率的なデータ並列最適化戦略を適用して、堅牢で高密度のグローバル測光アライメントを使用しています。

    • Online RGB-D Performance Capture

      • Weiseら [32]パラメトリックブレンドシェイプモデルをRGB-Dデータにフィッティングすることによりリアルタイムで顔のパフォーマンスをキャプチャしますが、プロフェッショナルなカスタム・キャプチャ設定が必要です。

      • 商用の深度センサに基づく最初のリアルタイム顔トラッキングシステムは、Weise[31]らによって実証されている。

      • その他の研究[21,4,10,16]には以下の様なものがある

        • 形状矯正[4], ブレンドシェイプの主成分を動的に適応させる[21], 非剛体メッシュ変形[10], オクルージョンロバスト性[16]

        • これらの作品は印象的な結果を達成しますが、ほとんどのビデオフッテージでは一般的に利用できない深度データに依存しています。

    • Online RGB Performance Capture

      • 例えば[25]のような多くの疎なリアルタイムの顔追跡装置が存在するが、リアルタイムの高密度単眼追跡は現実的なオンライン顔再現の基礎である。

      • Caoら [8]は、ユーザ固有のブレンドシェイプモデルを制約する顔のランドマークの3次元位置を推定するためのリアルタイム回帰に基づく手法を提案する。

      • その他の研究[6]もまた,細かい顔のしわを退縮(回帰)させる。

      • これらの方法は印象的な結果を達成するが、顔の再現のコンポーネントとして直接適用することはできない。なぜなら、それらは密集したピクセル単位の追跡を容易にしないからである。

    • Offline Reenactment

      • Vlasicら[30]はターゲットの上に異なる表情パラメータの下で再レンダリングされる顔テンプレートを追跡することによって顔面再現を実行する。口の内部はソースビデオから直接コピーされます。

      • Dale et al [11]パラメトリックモデルを使用して印象的な結果を達成するが、彼らは顔の置換をターゲットにして、ターゲット上にソースフェイスを構成する。

      • 画像ベースのオフライン口の再アニメーションは[5]に示されている。

      • Garrido et al[13]は、顔全体を置換するための、自動で純粋に画像ベースのアプローチを提案している。

      • これらのアプローチは単に自己再現を可能にします。すなわち、ソースとターゲットが同じ人物である場合である.対照的に、我々は異なるターゲットアクターの再現を行う。

      • 最近の研究は、私たちと同様の問題であるバーチャル複製[14]を提示している。しかし、この方法は遅いオフライン速度で実行され、口腔内のための一般的な歯代理に依存する。

      • Kemelmacher et al [20]大きな画像コレクションから顔アニメーションを生成するが、得られた結果は時間的に一貫性がない。

      • Li et al。 [22]類似度メトリックに基づいてデータベースからフレームを検索する。

        • 彼らは外観と速度測定としてオプティカルフローを使用し、タイムスタンプとフロー距離に基づいてk最近傍点を検索します。
      • Saragihら [25]は、単一の画像からリアルタイムのアバターアニメーションシステムを提示する。

        • それらのアプローチは、疎なランドマーク追跡に基づいており、ソースの口はテクスチャの歪みを使用してターゲットにコピーされます。
      • Berthouzoz et al [2]フレーム類似性を符号化するグラフ上で最短経路探索を使用して、ビデオシーケンスの中間フレームの柔軟な数を見つける。

      • Kawai et al[18]歯と舌の画像データベースを使用して、所定の正面の2Dアニメーションの口内を再合成する。

        • 彼らは正面のポーズに限られており、私たちのように一般的な頭の動きの下で現実的なレンダリングを生成しません。
    • Online Reenactment

      • 近年、RGB-(D)データに基づく最初のオンライン顔面再現手法が提案されている。

      • Kemelmacher-Shlizerman et al[19]データベースから類似の画像を参照することにより、画像ベースの人形劇を可能にする。

      • 彼らは出現コストメトリックを使用し、Kemelmacherらと同様の回転角距離を考慮する。[20]

      • 彼らは印象的な結果を達成するが、検索された顔の流れは時間的に一貫性がない。

      • Thiesら [29]最初のオンライン再現システムを示します。 しかし、彼らは深度のデータに依存し、口の領域のための一般的な歯のプロキシを使用しています。

      • 本稿では、次の2つの欠点に取り組んでいます.1)本手法は、初めてのリアルタイムRGBのみでの再現技術である、 2)我々は、ターゲットシーケンスのみを用いて口領域を合成する(歯代理(プロキシ)またはソースからターゲットへの直接のコピーを必要としない)

  • Synthesis of Facial Imagery

    • 我々は、[3、1、9]に基づくマルチリニアPCAモデルを使用する。

    • 最初の2つの次元は顔の同一性、すなわち幾何学的形状および皮膚反射を表し、第3の次元は表情を制御する。

    • したがって我々は顔を以下のようにパラメータ化する.式(1),(2)

    • この先行技術は、平均形状a(id)と平均反射率a(lb)の周辺の形状および反射率の多変量正規確率分布を仮定している.

    • 形状はE(id) <- R^3n80, 反射率はE(alb) <- R^3n80,表情はE(exp) <- R^3n*76, それに対応する標準偏差はσ(id) <- R^80, σ(alb) <- R^80, σ(exp)<-R^76である.

    • 合成画像CSは、剛体モデル変換Φ(v)および完全透視変換Π(v)を使用してモデルのラスタライズによって生成される。

    • 照明は、球面調和関数(SH)[23]の基底関数の最初の3つのバンドによって近似されます。完全拡散面と円滑な遠隔照明を仮定し、自己シャドーイングを無視します。

    • 合成は、顔モデルパラメータα、β、δ、照明パラメータγ、剛性変換R、t、およびΠを定義するカメラパラメータκに依存する。

    • 未知数Pのベクトルは、これらのパラメータの和集合である。

  • Energy Formulation

    • 単眼入力シーケンスが与えられれば、ロバストな変分最適化を用いて未知パラメータPをすべて再構築する。

    • 提案された項目は、未知数Pにおいて非常に非線形であり、以下の成分を有する:式(3)

    • データ項は、画像一貫性E(col)および顔特徴アラインメントE(lan)に関して、合成された画像と入力データとの間の類似度を測定する。

    • 与えられたベクトルPの可能性は、統計的正規化子Eregによって考慮される。

    • 重みwcol、wlan、およびwregは、3つの異なる副項目のバランスをとる。

    • 我々の実験では、wcol = 1、wlan = 10、wreg = 2.5・10-5と設定した。 以下では、異なる副項目を紹介します。

    • Photo-Consistency

      • 入力データが合成画像によってどのくらいうまく説明されるかを定量化するために、ピクセルレベルでのフォトメトリックアライメント誤差を測定する:式(4)

      • ここで、CSは合成画像、CIは入力RGB画像、p∈VはCSのすべての可視画素位置を示す。

      • 我々は、外れ値に対して堅牢であるように、最小二乗法の代わりにl2,1-norm [12]を使用します。

      • 我々のシナリオでは、色空間の距離はl2に基づいている一方,総画素数の合計では、l1ノルムがスパースに実行するために使用されます。

    • Feature Alignment

      • さらに、RGBストリームで検出される顕著な顔の特徴点の組の集合の間に特徴の類似度を求める:式(5)

      • この目的のために、我々は[24]による最先端の顔ランドマーク追跡アルゴリズムを採用する。

      • 各特徴点fj∈F⊂R2には検出信頼度wconf、jが与えられ、我々の顔の事前の固有の頂点vj = Mgeo(α、δ)∈R3に対応する。

      • これは、Ecol(P)の非常に複雑なエネルギー環境における局所的な極小値を避けるのに役立ちます。

    • Statistical Regularization

      • 正規分布母集団の仮定に基づいて、合成された顔の妥当性を求める。

      • これのために、統計的に平均値に近づくようにパラメータを適用します。式(6)

      • この一般的に使用される正則化戦略は、顔の幾何学的形状と反射率の縮退を防ぎ、局所的最小値なしに最適化戦略を導く[3]。

  • Data-parallel Optimization Strategy

    • 提案されたロバストトラッキングの方針は、一般的な非拘束非線形最適化問題である。

    • 私たちは、新しいデータ並列GPUベースのIRLS(Iterative Reweighted Least Squares)ソルバを使用してこの目的をリアルタイムで最小限に抑えます。

    • IRLSの重要なアイデアは、2つのコンポーネントでノルムを分割することによって、各反復で問題を非線形最小二乗問題に変換することです。(式)

    • ここで、r(・)は一般的な残差であり、P(old)は最後の反復で計算された解です。

    • したがって、第1の部分は、1回の反復中は一定に保たれ、後で更新される。

    • [29]にもとづいて,Gauss-Newtonアプローチを使用して各繰り返しステップを実装します。

    • 我々はすべてのIRLS反復において単一のGNステップをとり、最適線形パラメータ更新δを得るためにPCGに基づいて正規方程式J^(T)Jσ * = -J^(T)*Fの対応するシステムを解く。

    • ヤコビアンJおよびシステムの右辺-J^(T)* Fは、Thiesらが提案したように後の処理のために予め計算され、デバイスメモリに記憶される。 [29]。

    • [33,29]で示唆されているように、PCGソルバーのシステム行列J^(T)Jと古い降下方向dの乗算を2つの連続した行列ベクトル積に分割しました。

    • 最適化フレームワークに関する追加の詳細は、補足資料に記載されています。

  • Non-Rigid Model-Based Bundling

    • 単眼再構成の過度に制約の厳しいシナリオでのアクターのアイデンティティを推定するために、非剛体モデルに基づくバンドリング手法を導入する。

    • 提案された手法に基づいて、入力映像シーケンスのk個のキーフレームにわたるすべてのパラメータを共同して推定する。

    • 推定された未知数は、グローバルアイデンティティ{α、β}と固有値κ並びに未知のフレーム毎のポーズ{δk、Rk、tk} k及び照明パラメータ{γk} kである。

    • モデルからフレームへのトラッキングで提案されているのと同様のデータ並列化最適化戦略を使用しますが、キーフレームセット全体の正規方程式を共同で解きます。

    • 非剛体モデルに基づくバンドリング問題では、対応するヤコビアンのnon-zero構造はブロック密である。

    • 私たちのPCGソルバは非ゼロ構造を利用してパフォーマンスを向上させます(追加ドキュメントを参照)。

    • すべてのキーフレームは、潜在的に変化する照度、表現、および視角の下で同じ顔のアイデンティティを観察するので、アイデンティティを他のすべての問題の次元からロバストに分離することができます。

    • Πの固有のカメラパラメータも解き、キャリブレートされていないビデオフッテージを処理できることに注意してください。

  • Expression Transfer

    • 各アクタの表情における人物の特異性を維持しながら、表情の変化をソースアクタからターゲットアクタに移すために、サブ空間変形の転送技術を提案する。

    • 我々は、Sumnerら[27]の変形伝達エネルギーにインスパイアされているが、表情のブレンドシェイプによってに領域をまたいで直接動作します。

    • これは、システム行列の擬似逆行列の事前計算を可能にするだけでなく、高速リアルタイム転送を可能にする最適化問題の次元を劇的に減少させる。

    • ソースアイデンティティαSとターゲットアイデンティティαTが固定であると仮定すると、転送はニュートラルδSN、変形ソースδS、およびニュートラルターゲットδTN表情を入力とする。

    • 出力は、パラメトリックな事前空間の縮小された部分空間内で直接伝達された顔表情δTである。

    • [27]で提案されているように、我々はまず元の三角形をニュートラルから変形したものに変換するソース変形勾配Ai∈R3×3を計算する.

    • 線形最小二乗問題を解くことによって、変形されていない状態vi = Mi(αT、δTN)に基づいて、変形されたターゲットvi = Mi(αT、δT)が求められる。

    • V = [vi1-vi0、vi2-vi0]、V = [vi1-vi0、vi2-vi0]のi番目の三角形の頂点インデックスを(i0、i1、i2)とすると、 最適な未知のターゲット変形δTが式(7)の最小化器である。

    • この問題は、置換によって基準の最小二乗形式で書き直すことができます。

    • 行列A∈R6 | F |×76は一定であり、表情の部分空間に射影されたテンプレートメッシュのエッジ情報を含む。

    • ニュートラル表情のターゲットのエッジ情報は、右辺b∈R6 | F |に含まれます。

    • bはδSで変化し、新しい入力フレームごとにGPUで計算されます。

    • 二次エネルギーの最小化は、対応する正規方程式を解くことによって計算することができる。

    • システム行列は一定であるので、特異値分解(SVD)を用いて擬似逆行列を事前計算することができる。

    • 後で、小さな76×76リニアシステムがリアルタイムで解決されます。

    • ブレンドシェイプモデルは妥当な形のための結果を暗黙的に制限し、平滑さを保証するので、[27、4]のような追加の平滑化項は必要ありません。

  • Mouth Retrieval

    • 与えられた移された表情に対して、我々は現実的なターゲット口領域を合成する必要がある。

    • この目的のために、我々は、ターゲットのアクターシーケンスから最も一致する口の画像を検索し、歪ませる。

    • 十分な口のバリエーションがターゲットビデオで利用可能であると仮定します。

    • ターゲットの口の外観を維持していることに注意することも重要です。

    • これは、ソースの口領域をコピーするか[30、11]一般的な3D歯プロキシを使用することよりもはるかに現実的な結果につながります[14、29]。

    • 我々のアプローチは、まず、新規の特徴類似度メトリックを有するフレームと集合のマッチング戦略に基づいて、最良のフィッティングターゲット口枠を見つける。

    • 一時的な一貫性を実現するために、密集した外観グラフを使用して、最後に検索された口の枠と目標の口の枠との間の妥協点を見つける(図2参照)。

    • すべてのステップを以下に詳述します。

    • Similarity Metric

      • 類似度メトリックは、幾何学的特徴および測光的特徴に基づいている。

      • フレームの使用された記述子K = {R、δ、F、L}は、回転R、表情パラメータδ、ランドマークF、およびローカルバイナリパターン(LBP)Lから構成される。

      • トレーニングシーケンスの各フレームについて、これらの記述子KSを計算する。

      • 目標記述子KTは、表情転送の結果と、現在のアクターののフレームのLBPとからなる。

      • ソースとターゲット記述子の間の距離を次のように測定します。(式)

      • 初項のDpは以下のパラメータ空間で距離を測る(式)

      • 第二項Dmはスパースな顔ランドマークの異なる効率を測る.(式)

      • ここで、Ωは、あらかじめ定義されたランドマークの組の集合であり、上唇と下唇の間、または口の左右の角の間などの距離を定義する。

      • 最後の項Daは、2つの部分で構成される外観測定項です。(式)

      • τは、前のフレームにおける再現のために使用する最後に検索されたフレームインデックスである。

      • D1(KT、KSt)は、Chi Squared Distance(詳細は[13]を参照)を介して比較されるLBPに基づいて類似度を測定する。

      • Dc(τ、t)は、正規化された口フレームのRGB相互相関に基づいて、最後に検索されたフレームτとビデオフレームtとの間の類似度を測定する。

      • 口のフレームは、モデルのテクスチャパラメータ化に基づいて正規化されていることに注意してください(図2参照)。

      • 表情の変化に対する高速なフレームジャンプを容易にするために、重みwc(KT、KSt)= e-(Dm(KT、KSt))2を組み込む。

      • リアルタイムレートを実現するフレームと集合の距離測定値をフレーム間マッチング戦略に適用することで、口のフレーム間の高周波ジャンプを緩和します。

    • Frame-to-Cluster Matching

      • 提案された類似度メトリックを利用して、対の距離関数Dに基づく修正されたk平均アルゴリズムを使用して、ターゲットアクターシーケンスをk = 10クラスタにクラスタ化する。

      • すべてのクラスタについて、そのクラスタ内の他のすべてのフレームとの最小距離のフレームを代表として選択します。

      • ランタイム中に、ターゲット記述子KTとクラスタ代表の記述子間の距離を測定し、最小距離を有する代表フレームを新しいターゲットフレームとして選択する。

    • Appearance Graph

      • 我々は、すべてのビデオフレームの完全に接続された外観グラフを構築することによって、一時的な一貫性を改善する。

      • エッジ重みは、正規化された口フレーム間のRGB相互相関、パラメータ空間Dpにおける距離、およびランドマークDmの距離に基づく。

      • このグラフは、最後に検索されたフレームと検索されたターゲットフレームとの両方に類似している中間フレームを見つけることを可能にする(図2参照)。

      • 最後に検索されたフレームと現在のターゲットフレームとのエッジ重みの和を最小にするトレーニングシーケンスのフレームを見つけることによって、この完璧な一致を計算します。

      • 我々は、オプティクスフローアライメント後にピクセルレベルのテクスチャ空間内の以前に検索されたフレームと新たに検索されたフレームとをブレンドする。

      • ブレンドする前に、検索されたフレームと現在のビデオフレームの推定球面調和照明パラメータを考慮したイルミネーション補正を適用します。

      • 最後に、元のビデオフレーム、イルミネーション補正された投影されたマウスフレーム、およびレンダリングされた顔モデルの間のアルファブレンディングによって、新しい出力フレームを合成します。

  • Results

    • Live Reenactment Setup

      • 私たちのライブ再現のセットアップは、標準の消費者レベルのハードウェアで構成されています。

      • 私たちは、商品ウェブカム(ソース)でライブビデオをキャプチャし、Youtube(ターゲット)から単眼ビデオクリップをダウンロードします。

      • 私たちの実験では、640×480の解像度で30Hzで動作するLogitech HD Pro C920カメラを使用しています。 我々のアプローチはあらゆる消費者向けRGBカメラに適用可能である。

      • 全体として、我々のアルゴリズムの非常に現実的な再現例を、1280×720の解像度で、様々なターゲットYoutubeビデオ上に示す。

      • ビデオは様々なカメラアングルから撮影された異なるシーンの異なる被写体を表示します。 各ビデオはソースアクターとしていくつかのボランティアによって再現されます。

      • 再現結果は、1280×720の解像度で生成されます。

      • リアルタイムの再現結果を図7に示す。 8と添付のビデオに記載されています。

    • Runtime

      • すべての実験では、トラッキング(ソースとターゲット)に3つの階層レベルを使用します。

      • ポーズ最適化では、第2レベルと第3レベルのみを考慮します。そこでは、ガウス・ニュートン・ステップをそれぞれ1つと7つ実行します。

      • ガウス・ニュートンステップでは、常に4つのPCGステップを実行します。

      • 追跡に加えて、再現パイプラインには追加のステージがあり、そのタイミングは表1に記載されています。

      • 私たちの方法は、NVIDIA Titan XとIntel Core i7-4770を搭載した商品デスクトップコンピュータでリアルタイムに実行されます。

    • Tracking Comparison to Previous Work

      • 顔のトラッキングだけが私たちの仕事の主な焦点ではありませんが、以下の比較は、私たちのトラッキングが最先端の技術と同等であるか、それを上回っていることを示しています。

      • Shi et al. 2014 [26]

        • 単眼の拘束されていないRGBビデオから、オフラインで顔のパフォーマンスをキャプチャします。

        • 図4のクローズアップは、私たちのオンラインアプローチが、特に入力顔のシルエットで見える、より近く顔にフィットすることを示しています。

        • 我々は、新しい高密度非剛体バンドル調整が、その疎アプローチよりも良好な形状同一性推定につながると考えている。

      • Cao et al. 2014 [7]

        • 彼らはリアルタイムで単眼RGBからの顔のパフォーマンスをキャプチャします。

        • ほとんどの場合、私たちとその方法は、同様の高品質の結果をもたらします(図3参照)。 私たちのアイデンティティーと表情はやや正確です。

      • Thies et al. 2015 [29]

        • 彼らのアプローチは、RGB-Dからリアルタイムで顔のパフォーマンスをキャプチャします。図3

        • 両方のアプローチの結果も同様に正確です。 私たちのアプローチでは深度データは必要ありません。

      • FaceShift 2014

        • 我々はWeiseらの研究[31]に基づくFaceShiftの商業リアルタイムRGB-Dトラッカーと我々のトラッカーを比較する。

        • 図5は、RGBのみと同様の結果を得ることを示している。

    • Reenactment Evaluation

      • 図6に示すように、Garridoらによる最先端の再現[14]に対する我々のアプローチを比較する。

      • どちらの方法も非常に現実的な再現結果を提供します。 しかし、それらの方法は基本的にはオフラインです。シーケンスのすべてのフレームがいつでも存在する必要があるためです。

      • さらに、彼らはいくつかのフレームで再現をあまり説得力のない一般的な幾何学的歯プロキシに頼っています。

      • 図7に示すように、我々はThiesらの研究[29]と比較する。

      • ランタイムとビジュアル品質は両方のアプローチで同様です。 しかしながら、それらの幾何学的歯代理は、再現された口の望ましくない外観変化をもたらす。

      • さらに、Thiesらは、 アプリケーション範囲を制限するRGB-Dカメラを使用してください。 彼らはYoutubeのビデオを再現することはできません。

      • Dale et al。に対する補足資料では、さらなる比較が示されている。 Dale et al.[11]およびGarrido et al[13]。

  • Limitations

    • 完全拡散面と滑らかな照明の前提は制限されており、ハードシャドウや鏡面ハイライトの存在下でアーチファクトにつながる可能性があります。最先端の方法で共有される制限です。

    • 長い髪とひげによる顔の閉塞を伴う場面は挑戦的です。

    • さらに、微細な静的および一時的な表面の詳細を省略した、低次元のブレンドシェイプモデル(76式係数)のみを再構成して追跡します。

    • 我々の検索ベースの口合成は、ターゲットシーケンスにおける十分に目に見える表情変動を前提とする。

    • あまりにも短いシーケンスで、またはターゲットが静止しているときは、特定の口の動作を知ることができません。

    • この場合、検索された口サンプルのターゲットスペースがあまりにも疎であるため、時間的な別の口表現が観察される可能性がある。

    • もう1つの制限は、ハードウェアの設定(webcam、USB、およびPCI)によって引き起こされるもので、約3フレームの小さな遅延が発生します。

    • 特殊化されたハードウェアでこれを解決できますが、私たちの目標は汎用ハードウェアによる設定です。

  • Conclusion

    • 提示された手法は、単眼RGB入力だけを必要とするリアルタイムの顔面再現システムである。

    • YouTubeのライブ設定では、YouTubeなどの従来の動画をリアルタイムでアニメーションできます。

    • 全体的に見ると、VR / AR、電話会議、翻訳された音声によるビデオの高速なダビングの分野で、多くの新しくてエキサイティングなアプリケーションのためのシステムが構築されると考えています。

2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?