Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis Aggregation
ICCV 2023
paper
概要
この論文では、D3DP (Diffusion-based 3D Pose estimation) という新しい手法を提案.
D3DPは、2Dキーポイントに基づいて複数の3D姿勢仮説を生成し、それらを結合して最終的な3D姿勢を予測する手法.
3D姿勢推定にDiffusionを用いた研究
- D3DP: ノイズのある3D姿勢からクリーンな3D姿勢を復元するためのデノイザーを学習するプロセス
- JPMA (Joint-wise reProjection-based Multi-hypothesis Aggregation): 3D姿勢仮説を2Dカメラ平面に再投影し、再投影誤差に基づいて最良の仮説を選択する
このアプローチは、従来の確定的および確率的な手法に対して優れた性能を示している.
従来手法との比較
従来の3D姿勢推定手法は、確定的アプローチと確率的アプローチに分かれる.確定的アプローチは単一の3D姿勢を生成し、確率的アプローチは複数の仮説を生成する.しかし、確率的アプローチは特定のネットワーク設計に依存し、仮説の数を柔軟に調整できない問題があった.D3DPは、これらの課題を克服するために、デノイジング拡散確率モデル (DDPM) を使用し、既存の3D姿勢推定器と互換性を持つように設計されている.
新規性
D3DPの新規性は以下の点にある:
- デノイジング拡散確率モデル (DDPM) の利用: ノイズのある3D姿勢からクリーンな3D姿勢を復元するプロセスを導入し、複数の仮説を生成する
- JPMAの提案: 再投影誤差に基づいて最良の仮説を選択し、最終的な3D姿勢を予測する
- カスタマイズ可能な仮説数と反復数: 推論中に仮説数と反復数を調整することで、性能と効率のバランスを取る
方法論
- 拡散プロセス: GTの3D姿勢にノイズを加え、ノイズのある3D姿勢を生成する.このプロセスを反転させることでクリーンな3D姿勢を復元する
- デノイザー: 2Dキーポイントに基づいてノイズのある3D姿勢からクリーンな3D姿勢を生成するデノイザーを学習する
- JPMA: 3D姿勢仮説を2Dカメラ平面に再投影し、再投影誤差に基づいて最良の仮説を選択する.各関節ごとに最良の仮説を選び、それらを結合して最終的な3D姿勢を生成する
結果と評価
D3DPは、Human3.6MおよびMPI-INF-3DHPデータセットで評価され、従来手法を上回る性能を示している。
結論
D3DPは、拡散モデルを用いた新しい3D姿勢推定手法であり、確定的および確率的な手法の利点を組み合わせている.JPMAを使用することで、各関節ごとに最良の仮説を選択し、高精度な3D姿勢を予測することができる.このアプローチは、さまざまなアプリケーションでの利用が期待される.