#目的
姿勢推定技術の変遷を知る。
姿勢推定技術として何が使われているか知る。
#この記事のスコープ
姿勢推定は現在は3D姿勢の推定のフェーズに進んでいる模様だが、
この記事では2Dの姿勢推定をスコープとする。
3Dはこんな感じらしい
3D
#2つの姿勢推定手法
姿勢推定の手法には①Top Downの方式と②Bottom Upの方式がある。
①Top Down方式
対象物(人)を検出した後に、対象物ごとの座標点を推論する手法。
②Bottom Up方式
最初に人の検知を行うのではなく、関節点を推定した後にグループ化して人物を構成する手法。
#姿勢推定に登場する評価手法
###①Percent of Correct Parts(PCP)
正解の長さに何%同じであれあば正解とみなすか。
参考
###②Object Keypoint Similarity(OKS)
アノテーションされている関節点について推定座標と正解座標の類似度の平均を表す。
OKS=1だと完全一致。IoUみたいなもの。
diは関節点iの推定座標と正解座標の距離
sは人物のサイズ(COCOではアノテーションされている人物領域の面積を用いる
kiは関節点の種類毎に設定される定数(推定が難しい関節点ほど大きい値を設定する)
viは関節点がアノテーションされているかどうかを表す
#DNNを初めて使った方法:DeepPose
論文
2014年 CVPR Google
Top Downの手法
こちらの資料が詳しいのでこちらを参照
↓はほぼメモ書き
考え方
決まった画像サイズN(x)における各関節の座標を求めたい
→ 2k次元(k:関節数 2:x,y座標)の連続ベクトルを求めたい
座標は回帰関数により求める
回帰関数(ψ)をDNNで近似する
→DNNを学習したい
求めた座標は元の画像の座標に最終変換する
1stageだと精度が低いのでより精度を上げるようにstageを増やしている
#小さく映った人にも対応した手法:HRNet
論文
Bottom Upの手法。
2020年に改良版のHigher HRNetが発表されている。
HRNetが1/4の解像度を保持したのに対し、HigherHRNetでは1/2の解像度を保持できる。
論文
#交差/重なった姿勢の推定:Clip Tracking Network
Combining detection and tracking for human pose estimation in videos
Amazonが2020年に発表した手法。
問題意識:人が重なった時に、どちらの人のキーポイントの割り当てが難しい。
対策:前後のフレームの姿勢推定結果を使って現フレームの姿勢推定を行うことにより重なりや交差に対応する。
①あるFrame中の各バウンディングボックスに対してTube Tβを作る
前後のフレームで切り出すバウンディングボックス位置は同じ。
②HRNetに入れ各フレームの姿勢推定を行い、そこから切り抜いたタイミング(t)の姿勢を推定する
Pは2k次元のベクトル。βpでどのバウンディングボックスか。tがどの時間か。
○ 学習時ロス
平均二乗誤差
Kは関節分。I,jは幅と高さ分。
=1枚の画像中の誤差をK枚の関節分のHeatMapに対して行う
これを全クリップに対して行う
クリップ:どのタイミングのフレームを抜き出すか
ハンガリアンアルゴリズムで同一人物のキーポイントの割り当てを行う。
前後のフレームでオーバーラップしているキーポイントに対して類似度を取る。
OKSによるSimilarityをとる。
Pβ3-6:t=6時点での3つ目バウンディングボックスの姿勢推定結果を意味する。
OKSは類似度が1に近いほど一致している=同じ人である
以下の例ではt=2のボックス2の姿勢推定結果とt=6のボックス3の姿勢推定結果が似ているため、t=2→t=6 でAさんの位置が変わっていることが分かる。
関節の最適な位置は、複数の候補の間で空間的にも、時間的(フレーム間)にも一貫性があると仮定して対応している。
空間的(1フレームの中で仮定した座標と推測座標の差分)にも時間的(関節の中心位置が連続フレームで最小)にも誤差が小さくなるように割り当てる?
各フレームで右くるぶしの位置が遠くなったり近くなったりしないようにする。常に最短距離になるように割り当てている?
?