Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation
概要
この論文では、DiffusionPoseという新しい枠組みを提案している.
トレーニング中に、キーポイントにガウシアンノイズを加えてランダム分布に拡散させ、拡散モデルがノイズのあるヒートマップから地上真値のヒートマップを復元することを学習する.
推論中には、初期化されたヒートマップから高品質のヒートマップを生成する.また、DiffusionPoseの性能を向上させるために、人間の構造情報を条件として利用する方法も探求している.
最近、至る所で見るDiffusion(拡散モデル)と、その構造を活用した研究。
本研究はHuman Pose Estimation(姿勢推定)に拡散モデルを利用した。
従来手法との比較
従来の2D姿勢推定手法は、通常、トップダウン法、ボトムアップ法、およびシングルステージ法に分類される.トップダウン法は、各人物のバウンディングボックスを検出し、その中で姿勢推定を行う.ボトムアップ法は、すべてのキーポイントを検出し、それをグループ化して個々の人物の姿勢を推定する.ワンステージ法は、画像全体から直接キーポイントを回帰する.
これらの手法の問題点は以下の通りである:
- トップダウン法: 高解像度のバウンディングボックスが必要であり、計算コストが高い
- ボトムアップ法: キーポイントのグループ化が難しく、密集したシーンでは誤差が生じやすい
- シングルステージ法: 一貫性のある高精度な結果を得るのが難しい
新規性
Diffusionについては、モデル構造をある程度は理解しておくことが、必須教養になりそうな気がします...
DiffusionPoseの新規性は以下の点にある:
- 拡散モデルの利用: 2D姿勢推定をノイズのあるヒートマップからヒートマップを生成する問題として定式化し、拡散モデルを利用する
- 構造ガイド拡散デコーダ (SGDD): 人間の構造情報を条件として利用し、キーポイントヒートマップの生成を改善する
- 高解像度SGDD: 高解像度のヒートマップを生成することで、精度を向上させる
方法論
- 前方拡散プロセス (FDP): キーポイントにガウシアンノイズを加えてノイズのあるヒートマップを生成し、特徴マスクを作成する
- モデル前方プロセス (MFP): 入力画像から抽出した特徴と特徴マスクを用いて、拡散モデルの条件を生成する
- 逆拡散プロセス (RDP): 初期化されたヒートマップから高品質のヒートマップを生成し、キーポイントの座標を復元する
モデル学習・推論の流れ
Training
- 拡散ステップを設定
- 入力画像をエンコーダにて画像特徴xに変換
- 画像特徴xよりヒートマップを生成する、このヒートマップにノイズを付加していく。
- キーポイントをノイズのあるキーポイントに変換する
- ノイズありキーポイントからノイズのあるヒートマップ・特徴マスクを生成する。
この特徴マスクにはキーポイントマスクとスケルトンマスクが含まれている。 - 特徴x、キーポイントマスク、スケルトンマスクを使用し、一部がマスクされた特徴xk,xsを生成する。
- spatial-channel cross-attention (SC-CA) モジュールを用いて、条件付き特徴を生成する。
- 拡散デコーダによってノイズのあるヒートマップから推定ヒートマップを生成する。
LOSS
- 推定ヒートマップとGTヒートマップとの間のL2損失を計算する
- エンコーダの出力(画像特徴量)とGTヒートマップとのL2損失を計算する
Inference
- エンコーダで画像から画像特徴xを抽出
- 初期化:特徴xを用いて、ヒートマップを生成する。
- このヒートマップをデノイズ過程のスタート地点とする。
- ヒートマップからキーポイントをデコードする。
- キーポイントから特徴マスク(キーポイントマスク、スケルトンマスク)を生成する。
- マスクされた特徴の生成
- 条件付き特徴の生成:SC-CAモジュールを用いて、条件付き特徴を生成する
- デコーダによって、ノイズのあるヒートマップから次ステップのヒートマップを生成する。
- 最終ステップで最終的なヒートマップからキーポイントをデコードする
結果と評価
DiffusionPoseは、COCO、CrowdPose、AI Challengeデータセットで評価され、従来手法に勝る結果を示した。
結論
DiffusionPoseは、2D姿勢推定をノイズのあるヒートマップから高品質なヒートマップを生成する新しいアプローチを提案している.拡散モデルと構造ガイド拡散デコーダを利用することで、従来の手法に比べて精度と効率が大幅に向上している.このアプローチは、今後の姿勢推定研究において新たな標準となる可能性がある.