Leonid Pishchulin, Eldar Insafutidinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, and Bernet Schiele
CVPR2016
・arXiv,PDF
1.どんなもの?
複数人が重なり合っている時でもに姿勢推定を行うために、重なり合う部分を分割しラベル付けする手法を提案
つまり、人々が重なっているような場合にうまく推定することを目指す
2.先行研究との違いは?
従来手法ではまず人々を検出し、その後姿勢を推定していたため複数人に対しての姿勢推定が難しかった。(2015年)
この論文の手法では以下の手順で推定を行う。
(a)初期検出。この時点では全ての部位候補を検出。
(b)同じ色の部分グラフが一人の人物にクラスタリングされ、各々の部分はその部分クラスに対応してラベル付けされる。(異なる色および記号は異なる部位に対応する)
(C)推定結果。

以下がこの手法の特徴である。
(1)部位の予測をリンクさせることで人数を予測できるため人数が不明でも対応可能。
(2)部位候補の初期集合において部位予測を非アクティブ化またはマージすることを可能にし非最大抑制(NMS)を効果的に行う。
(3)NP困難な問題を線形整数問題へキャストする。
3.技術や手法のキモはどこにあるか?
強力な部分検出器
・改良したFast R-CNNを利用(Adapted FR-CNN,AFR-CNN)
ーDetection proposals
ーLarger context
・Dense Architecture (Dense-CNN)
VGGに基づいた構造
ーStrideを調整(8pxに減らす)
ーScaleを調整(340pxに)
ーLoss functionを調整
出力と交差エントロピーの損失に対する活性化関数としてシグモイド関数を利用
ーLocation refinement
ーRegression to other parts
ーTraining
・DeepCutモデル
モデルによって生成されたセット全体から代表的な検出を選択することでNP困難にならないように工夫
4.有効性の検証
トレーニングと検証に用いたデータセット
“Leeds Sports Poses” (LSP)
“LSP Extended” (LSPET)
“MPII Human Pose” (“Single Person”)
部分検出器の性能評価

DeepCutの結果
一人分の姿勢推定
複数人への姿勢推定

複数人への姿勢推定において特に提案手法は良い結果
上の画像のように従来手法では、人々が重なり合うと推定結果で別人の部位とつながったりする
5.議論はあるか
6.次に読むべき論文はあるか
今回の論文に続く内容
DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model, ECCV2016
・arXiv