PoseFix: Correcting 3D Human Poses with Natural Language
概要
PoseFixは、自然言語による指示を用いて3Dヒューマンポーズを修正するための新しいデータセットと手法を提案している.この研究は、特にフィットネスアプリケーションや家庭内での物理療法、デジタルアニメーションの支援など、多岐にわたる応用が期待される.PoseFixデータセットは、数千の3Dポーズとその修正方法を記述したテキストフィードバックのペアで構成されており、以下の二つのタスクに対して評価を行っている:
- テキストベースのポーズ編集: クエリポーズとテキスト修正指示を与えて、修正された3Dボディポーズを生成するタスク
- 修正テキスト生成: 二つのボディポーズの違いに基づいて修正指示を生成するタスク
昨今の進化がすごい言語系のモデルを、他のタスクとうまく組み合わせることができると、さらに別のアプローチが開発できる可能性は十分あるはず
従来手法との比較
従来の手法では、3Dヒューマンポーズと自然言語の関係を探る試みがいくつか行われてきたが、3Dボディポーズの違いを説明することに焦点を当てたものはなかった.たとえば、テキスト記述を用いてモーションを生成する研究や、合成2Dレンダリングからポーズの違いを説明する研究があるが、3Dポーズペアにテキスト指示を関連付けるデータセットは存在しなかった.PoseFixは、このギャップを埋めるために、より多様なシーケンスからポーズを収集し、実際の3Dデータに基づいたテキストアノテーションを提供している.
新規性
PoseFixの新規性は以下の点にある:
- ペアでの3Dポーズとテキストフィードバック: PoseFixデータセットは、3Dポーズペアとそれらの違いを説明するテキストフィードバックを含んでおり、修正指示を生成するための基盤を提供している.
- 自由形式のフィードバック: 固定的なテンプレートではなく、自由形式の自然言語でポーズの修正指示を生成することができる.
- 多様なデータソース: AMASSデータセットからの多様なポーズシーケンスを利用し、フィードバックの質と多様性を高めている.
方法論
- ペア選択プロセス: 同一シーケンス内のポーズペア(in-sequence)と異なるシーケンスからのポーズペア(out-of-sequence)を選択.異なるシーケンスからのペアは、一般化を助け、異なるスタイルの類似ポーズを学習するために使用される.
- アノテーション収集: Amazon Mechanical Turkを使用して、英語話者のアノテーターからテキスト修正指示を収集.指示は、各ポーズの異なる視点からのレンダリングを表示し、10ワード以上の詳細な説明を求めた.
-
自動生成: 低レベルのポーズ特徴を使用して、自動的に修正指示を生成するパイプラインを設計.これにより、短時間で大量のアノテーションを生成することが可能になった.
結果と評価
PoseFixデータセットを用いた評価では、テキストベースのポーズ編集と修正テキスト生成の両タスクにおいて有望な結果が得られた.
- テキストベースのポーズ編集: クエリポーズとテキスト修正指示を入力とする条件付きVAE(cVAE)を使用して、新しいポーズを生成.結果は、ELBO、MPJE、MPVE、ジオデシック距離などの評価指標で測定された.
- 修正テキスト生成: 自己回帰型トランスフォーマーモデルを使用して、修正指示を生成.評価はBLEU-4、Rouge-L、METEOR、R-precisionなどの自然言語処理指標で行われた.
結論
PoseFixは、3Dヒューマンポーズを自然言語による指示で修正するための新しいデータセットと手法を提案している.この研究は、フィットネスやデジタルアニメーションなどの応用分野で大きな可能性を秘めており、今後の研究の基盤となることが期待される.