0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

論文読み:Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation

Posted at

Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation

概要

この論文では、DiffusionPoseという新しい枠組みを提案している.
トレーニング中に、キーポイントにガウシアンノイズを加えてランダム分布に拡散させ、拡散モデルがノイズのあるヒートマップから地上真値のヒートマップを復元することを学習する.
推論中には、初期化されたヒートマップから高品質のヒートマップを生成する.また、DiffusionPoseの性能を向上させるために、人間の構造情報を条件として利用する方法も探求している.

最近、至る所で見るDiffusion(拡散モデル)と、その構造を活用した研究。
本研究はHuman Pose Estimation(姿勢推定)に拡散モデルを利用した。

従来手法との比較

従来の2D姿勢推定手法は、通常、トップダウン法、ボトムアップ法、およびシングルステージ法に分類される.トップダウン法は、各人物のバウンディングボックスを検出し、その中で姿勢推定を行う.ボトムアップ法は、すべてのキーポイントを検出し、それをグループ化して個々の人物の姿勢を推定する.ワンステージ法は、画像全体から直接キーポイントを回帰する.

これらの手法の問題点は以下の通りである:

  • トップダウン法: 高解像度のバウンディングボックスが必要であり、計算コストが高い
  • ボトムアップ法: キーポイントのグループ化が難しく、密集したシーンでは誤差が生じやすい
  • シングルステージ法: 一貫性のある高精度な結果を得るのが難しい

新規性

Diffusionについては、モデル構造をある程度は理解しておくことが、必須教養になりそうな気がします...

DiffusionPoseの新規性は以下の点にある:

  1. 拡散モデルの利用: 2D姿勢推定をノイズのあるヒートマップからヒートマップを生成する問題として定式化し、拡散モデルを利用する
  2. 構造ガイド拡散デコーダ (SGDD): 人間の構造情報を条件として利用し、キーポイントヒートマップの生成を改善する
  3. 高解像度SGDD: 高解像度のヒートマップを生成することで、精度を向上させる

方法論

image.png

  • 前方拡散プロセス (FDP): キーポイントにガウシアンノイズを加えてノイズのあるヒートマップを生成し、特徴マスクを作成する
  • モデル前方プロセス (MFP): 入力画像から抽出した特徴と特徴マスクを用いて、拡散モデルの条件を生成する
  • 逆拡散プロセス (RDP): 初期化されたヒートマップから高品質のヒートマップを生成し、キーポイントの座標を復元する

モデル学習・推論の流れ

Training

  1. 拡散ステップを設定
  2. 入力画像をエンコーダにて画像特徴xに変換
  3. 画像特徴xよりヒートマップを生成する、このヒートマップにノイズを付加していく。
  4. キーポイントをノイズのあるキーポイントに変換する
  5. ノイズありキーポイントからノイズのあるヒートマップ・特徴マスクを生成する。
    この特徴マスクにはキーポイントマスクとスケルトンマスクが含まれている。
  6. 特徴x、キーポイントマスク、スケルトンマスクを使用し、一部がマスクされた特徴xk,xsを生成する。
  7. spatial-channel cross-attention (SC-CA) モジュールを用いて、条件付き特徴を生成する。
  8. 拡散デコーダによってノイズのあるヒートマップから推定ヒートマップを生成する。

LOSS

  1. 推定ヒートマップとGTヒートマップとの間のL2損失を計算する
  2. エンコーダの出力(画像特徴量)とGTヒートマップとのL2損失を計算する

Inference

  1. エンコーダで画像から画像特徴xを抽出
  2. 初期化:特徴xを用いて、ヒートマップを生成する。
  3. このヒートマップをデノイズ過程のスタート地点とする。
  4. ヒートマップからキーポイントをデコードする。
  5. キーポイントから特徴マスク(キーポイントマスク、スケルトンマスク)を生成する。
  6. マスクされた特徴の生成
  7. 条件付き特徴の生成:SC-CAモジュールを用いて、条件付き特徴を生成する
  8. デコーダによって、ノイズのあるヒートマップから次ステップのヒートマップを生成する。
  9. 最終ステップで最終的なヒートマップからキーポイントをデコードする

結果と評価

DiffusionPoseは、COCO、CrowdPose、AI Challengeデータセットで評価され、従来手法に勝る結果を示した。
image.png

結論

DiffusionPoseは、2D姿勢推定をノイズのあるヒートマップから高品質なヒートマップを生成する新しいアプローチを提案している.拡散モデルと構造ガイド拡散デコーダを利用することで、従来の手法に比べて精度と効率が大幅に向上している.このアプローチは、今後の姿勢推定研究において新たな標準となる可能性がある.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?