Eldar Insafutdinov, Leonid Pishchulin, Bjoern Andres, Mykhaylo Andriluka, and Bernt Schiele, "DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model", in
ECCV'16
arXiv, pdf
#1. どんなものか
複数の人が密に写っている画像に対して有効な姿勢推定の手法を提案.
下の画像は提案手法による姿勢推定の結果であり,人物が重なり合うような時でもうまく推定ができている.
#2. 先行研究との違い
人物が重なっている場合でもうまく姿勢推定ができる.
この目標は以前提案した手法(DeepCut)でも同様だが今回の手法はDeepCutと比べ,より深い構造を持ち,より強く,より速く結果を得ることができる.
・Deeper
・Stronger
・Faster
#3. 技術や手法のキモは何か
次の3項目からモデルを作成している.
###強力な部分検出器
・構造
ResNetを部位検出に利用.この論文を参考に152層のもの.
・ストライド
32pxから16pxに
spatial resolutionを解決するため2倍アップサンプリングするdeconvolutional層を追加し、最終出力をconv3バンクの出力に接続.
・受容野の大きさ
ResNetは深いので複雑な階層構造を組み込まなくても大きな受容野を実現する.
(VGGが400px 程度なのに対して1000px程度)
大きい受容野は部位を予測する際にcontextを組み込むことを可能にする.
・Intermediate supervision.
勾配消失に対処する.
ResNetのconv4バンクの中にloss layersを追加.
・損失関数
シグモイド関数と,クロスエントロピー損失関数.
Image-Conditioned Pairwise Terms
予測された部位の集合がどの人物に属するかを判断する.
より良い判断をするために以下の点を改善
・Location refinement NMS
NMSを適用する前に、検出されたオフセットでロケーションの細分化と正しいグリッドロケーションを使用.
特定の部位に属する検出が実際の位置に引っ張られるため位置周辺の検出密度が高まる.
・Splitting of part detections
同じ空間内に複数の部位が検出された場合,各部品クラスの検出を$n$回の検出で置き換える.
Incremental Optimization
部分クラスのセットをサブセットに分割することで,推定を段階的に行う.
#4. 有効性の検証
3.の各々のモデルについて評価を行っている.
###強力な部分検出器
データセット
・“Leeds Sports Poses” (LSP)
・“LSP Extended” (LSPET)
・“MPII Human Pose” (“Single Person”)
LSPでの評価の際にはモデルはMPII, LSPETとLSPを用いて学習.
MPIIの評価の際にはMPIIのみで学習.
評価基準
“Percentage of Correct Keypoints(PCK)”
“Area under Curve(AUC)"
結果
Image-Conditioned Pairwise Terms
MPII Multi-Person Val(“MPII Human Pose” (“Multi-Person”)から無作為に選んだ200個の画像)にて検証.
評価基準
AP
(evaluating consistent body part detections)
Incremental Optimization
MPII Multi-Person Val にて検証.
評価基準
AP
データセット
WAF
評価基準
mPCP, AP
PCP = Percentage of Correctly estimated body Parts ?
#5. 議論はあるか
姿勢推定の成功例と失敗例