Semi-Supervised 2D Human Pose Estimation Driven by Position Inconsistency Pseudo Label Correction Module
CVPR2023の論文です.
原著論文:https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Semi-Supervised_2D_Human_Pose_Estimation_Driven_by_Position_Inconsistency_Pseudo_CVPR_2023_paper.pdf
論文中に出てくる単語の意味
- Pseudo Label
: 擬似ラベル、予測の「頭」や「右肩」などキーポイントのラベル(位置の名称)
概要
論文「Semi-Supervised 2D Human Pose Estimation Driven by Position Inconsistency Pseudo Label Correction Module」は、半教師あり学習による2D Human Pose Estimationに焦点を当てている.従来の手法が抱える2つの問題点、すなわち大規模モデルと軽量モデル間のインタラクティブなトレーニングにおけるラベルの精度問題、およびノイズの多いラベルの影響に対処するため、位置の不一致を修正するPseudo Label Correction Module(SSPCM)を提案している.さらに、Pseudo Keypoint Perceptionに基づく semi-supervised Cut-Occlude(SSCO)
を導入し、難しいサンプルを生成することで、Student Modelの性能を向上させる.
イントロダクション
2D Human Pose Estimation(HPE)は、画像から人体の2D Keypointを推定するタスクで、Action Recognitionや3D Pose Estimationなどの基本的なタスクに不可欠であるが、ラベリングのコストと時間が膨大である.
半教師あり学習が注目されている.
この研究では、ラベルの少ないデータと大量の未ラベルデータを用いてモデルの性能を向上させる方法に焦点を当てている.
提案手法
位置の不一致によるPseudo Label Correction Module(SSPCM)
SSPCMは、以下のステップで構成されている.
- 補助教師の導入: 追加の補助教師モデルを導入し、異なる時期に生成されたPseudo Labelの不一致スコアを計算して外れ値を削除する.
- インタラクティブトレーニング: 2つの教師モデル間でインタラクティブトレーニングを行い、Student ModelをPseudo Labelで更新する.
- 位置の不一致スコアの計算: 各Keypointの予測結果のピクセル距離を計算し、不一致スコアを導出する.
- Pseudo Labelの修正: 最小の不一致スコアを持つPseudo Labelを選択し、修正されたPseudo Labelを生成する.
Pseudo Keypoint Perceptionに基づくCut-Occlude(SSCO)
SSCOは、以下のステップで構成されている.
- Pseudo Labelの生成: 教師モデルを使用して各Keypointの中心を特定し、局所的なリム画像を切り取る.
- 局所的なリム画像の貼り付け: 他の画像のKeypoint中心に貼り付けて局所的な遮蔽をシミュレートする.
実験
データセット
- MPII: 25k枚の画像と40kのPerson Instancesを含む.
- AI-Challenger: 210k枚の画像と370KのPerson Instancesを含む.
- COCO: TRAIN、VAL、TEST-DEV、TEST-CHALLENGEの4つのサブセットを持つ.
- CEPDOF: 屋内オーバーヘッドFisheyeカメラで収集されたデータセット.
- WEPDTOF-Pose: 新たに収集された屋内オーバーヘッドFisheyeカメラデータセット.
- BKFisheye: 実際のサイトシーンから収集されたデータセット.
結果
実験結果は、提案手法が従来の最先端手法を上回る性能を示した.特にCOCOデータセットにおいて、提案手法は1K、5K、10KのLabel付きデータ設定で、それぞれ2.3mAP、1.9mAP、1.1mAPの向上を示した.また、WEPDTOF-PoseやBKFisheyeデータセットにおいても、提案手法の有効性が確認された.
結論
この研究は、半教師ありの2D Human Pose Estimationにおいて、位置の不一致を修正するPseudo Label Correction Module(SSPCM)と、Pseudo Keypoint Perceptionに基づくCut-Occlude(SSCO)を提案した.提案手法は、多様なデータセットで優れた性能を発揮し、コードと新しいデータセットの公開により、この分野のさらなる研究を促進することを目指している.