論文解説
WACV論文 2024年に投稿されたばかりのものです.
自分のまとめのついでに書いているので、説明に加えて時々自分のメモが書かれています.
もし記事内に間違いがあったらご指摘いただけると幸いです.
原著論文
code
記事内で使用される画像はすべて原著論文を参考にしています.
この論文「Rethinking Visibility in Human Pose Estimation: Occluded Pose Reasoning via Transformers」は、人間のポーズ推定における視認性に関する再考と、Transformersを用いた遮蔽されたポーズ推論に焦点を当てている.以下に要約と解説を示す.
この論文の貢献した点
- 可視性に関係なく(可視性は評価で考慮される)キーポイントすべてを使って学習する場合、遮蔽されたキーポイントを学習することが、可視点を予測するタスクにおいて悪影響を与える
- 遮蔽処理のための新しいモジュールの提案
- 既存のモデルに追加し、精度が向上することを確認した
Abstract
Occlusion(遮蔽)は人間のポーズ推定における一般的な課題.遮蔽されたキーポイントを学習することは、モデルが視認可能なキーポイントを検出する能力を損なう可能性がある.この損害が遮蔽を視覚的特徴と無理に関連付けることに起因すると推測している.
そのため、信頼性の低い遮蔽された特徴を排除するVisibility-aware attention mechanism(視認性に配慮した注意メカニズム)を提案している.
この方法により、モデルは視認可能なキーポイントの証拠と文脈情報を用いて遮蔽されたキーポイントを推論することが促される.
方法
Observational Study on Occlusion
遮蔽がポーズ推定に及ぼす影響を定量的に観察するための実験を実施.Visible(視認可能)なキーポイントのみを使用して訓練するモデルと、全てのキーポイントを使用するモデルを比較した結果、当然、遮蔽領域の予測はデフォルトのモデルの方が精度は高いが、視認可能なキーポイントのみを使用する方が可視できる点についての精度は高いことが判明(遮蔽領域のキーポイントを学習することで可視点のキーポイントの精度も下げる).
視認可能性について書いているが、視認性はどう定義されているのかよくわからない.例えば、着ぐるみを着ている人物がいたら視認性は無い?自転車に乗っている人物がいる時、車輪の向こう側にある足の視認性はない?
cocodatasetを見てみても詳しい説明はなさそうだった.
model構造
Visibility Prediction and Keypoint Masking
MLP(Multi-Layer Perceptron)であるVisNetを用いて、各キーポイントの視認性を予測する.予測された視認性に基づいて、遮蔽されたキーポイントの特徴をマスクし、残りのキーポイントの特徴をTransformerブロックに入力する.これにより、視認可能なキーポイントの特徴に基づいて遮蔽されたキーポイントを推論することが可能になる.
Keypoint Reasoning with Transformers
Visibility-guided masked featureを入力として、視認性に基づくattentionを用いてキーポイントを推論する.Transformerブロックは、視認可能なキーポイントの特徴を強化し、遮蔽されたキーポイントの推論を支援する.
Loss Function
視認性の二値分類を監督するために、標準のcross-entropy lossを用いる.また、全体の損失関数は、ポーズ推定の損失と視認性の損失の組み合わせとして定義される.
Model Architecture
以上の要素を組み込むことで、従来のtop-down手法とは異なり、可視性も考慮したモデル構造を実現している.
実験
MSCOCO Keypoint Detection
MSCOCOデータセットを用いた実験では、提案手法がSimCCモデルを上回る性能を示した.特に視認可能なキーポイントと遮蔽されたキーポイントの両方で性能が向上した.
CrowdPose Keypoint Detection
CrowdPoseデータセットを用いた実験でも、提案手法が視認性に基づく推論により、視認可能なキーポイントと遮蔽されたキーポイントの両方で性能を向上させた.
Ablation Study
Visibility-guided masking strategyが最終結果に寄与することを示すためのアブレーションスタディを実施.Transformerブロックを用いた場合に比べ、visibility-guided masking strategyを適用することで大幅な性能向上が見られた.
結論
本論文では、遮蔽されたキーポイントが視認可能なキーポイントの予測に干渉することを定量的に観察し、視認性に基づくフレームワークを提案した.この方法により、モデルは視認性の属性を学習し、視認可能なキーポイントの特徴に基づいて遮蔽されたキーポイントを推論することが可能になる.提案手法は既存の姿勢推定モデルに容易に統合でき、MSCOCOおよびCrowdPoseデータセットで性能向上を示した.