論文
論文名
Multi-Scale Structure-Aware Network for Human Pose Estimation
著者
Lipeng Ke, Ming-Ching Chang, Honggang Qi, and Siwei Lyu
学会
ECCV2018
概要
人物姿勢推定のためのNN。deep conv-deconv hourglass modelの課題点4つを改良した手法の提案。簡単にまとめると、キーポイント検出の学習強化・キーポイントのスケール最適化・パーツグルーピング強化・マスキング学習の4つ。以上より、スケールの多様性、オクルージョン、群衆に対する性能がロバストになる。MPⅡにおいてトップ性能を出した。
貢献
- multi-scale supervision network (MSS-net)とmulti-scale regression network (MSR-net)の導入によって様々なスケールのキーポイントのローカライズにおけるロバスト性能向上
- structure-aware-lossniよるMSS-netとMSR-netの学習でオクルージョンを回復し、人間骨格をより良く学習
- マスキング学習によってロバスト性能が向上かつネットワークを微調整
評価
- FLICにおいて精度の改善
- MPⅡにおいてSOTA
Lipeng Ke, Ming-Ching Chang, Honggang Qi, and Siwei Lyu. Multi-scale structure-aware network for human pose estimation. In Vittorio Ferrari, Martial Hebert, Cristian Sminchisescu, and Yair Weiss, editors, ECCV, pages 731–746, 2018.
PCK:Percentage of Correct Keypoints (PCK) は単一人物姿勢推定において利用される評価指標。PCKでは、関節点の推定座標と正解座標の距離が、ある閾値よりも小さいときにその関節点の推定を正しいものとし、推定が正しく行われた割合をその評価値とする。PCKの閾値は人物頭部のサイズ(頭部外接矩形の対角線の長さ)に基づき決定されることが多く、これはPCKhといわれる。例えばPCKh@0.5の場合、頭部サイズの0.5倍を閾値に設定して評価を行う。(https://engineer.dena.com/posts/2019.11/cv-papers-19-2d-human-pose-estimation/)