2
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

姿勢推定技術の変遷

Last updated at Posted at 2021-10-10

#目的
姿勢推定技術の変遷を知る。
姿勢推定技術として何が使われているか知る。

#この記事のスコープ
姿勢推定は現在は3D姿勢の推定のフェーズに進んでいる模様だが、
この記事では2Dの姿勢推定をスコープとする。
image.png

3Dはこんな感じらしい
image.png
3D

#2つの姿勢推定手法
姿勢推定の手法には①Top Downの方式と②Bottom Upの方式がある。

①Top Down方式
対象物(人)を検出した後に、対象物ごとの座標点を推論する手法。

②Bottom Up方式
最初に人の検知を行うのではなく、関節点を推定した後にグループ化して人物を構成する手法。

#姿勢推定に登場する評価手法
###①Percent of Correct Parts(PCP)
正解の長さに何%同じであれあば正解とみなすか。
image.png
参考

###②Object Keypoint Similarity(OKS)
アノテーションされている関節点について推定座標と正解座標の類似度の平均を表す。
OKS=1だと完全一致。IoUみたいなもの。
image.png

diは関節点iの推定座標と正解座標の距離
s
は人物のサイズ(COCOではアノテーションされている人物領域の面積を用いる
kiは関節点の種類毎に設定される定数(推定が難しい関節点ほど大きい値を設定する)
vi
は関節点がアノテーションされているかどうかを表す

#DNNを初めて使った方法:DeepPose
論文
2014年 CVPR Google
Top Downの手法
こちらの資料が詳しいのでこちらを参照

↓はほぼメモ書き
考え方
決まった画像サイズN(x)における各関節の座標を求めたい 
→ 2k次元(k:関節数 2:x,y座標)の連続ベクトルを求めたい
座標は回帰関数により求める
回帰関数(ψ)をDNNで近似する
→DNNを学習したい
求めた座標は元の画像の座標に最終変換する
image.png

1stageだと精度が低いのでより精度を上げるようにstageを増やしている
image.png

#小さく映った人にも対応した手法:HRNet
論文
Bottom Upの手法。

image.png

image.png

2020年に改良版のHigher HRNetが発表されている。
HRNetが1/4の解像度を保持したのに対し、HigherHRNetでは1/2の解像度を保持できる。
論文

#交差/重なった姿勢の推定:Clip Tracking Network
Combining detection and tracking for human pose estimation in videos
Amazonが2020年に発表した手法。

問題意識:人が重なった時に、どちらの人のキーポイントの割り当てが難しい。
対策:前後のフレームの姿勢推定結果を使って現フレームの姿勢推定を行うことにより重なりや交差に対応する。
image.png

①あるFrame中の各バウンディングボックスに対してTube Tβを作る
前後のフレームで切り出すバウンディングボックス位置は同じ。
image.png

②HRNetに入れ各フレームの姿勢推定を行い、そこから切り抜いたタイミング(t)の姿勢を推定する
Pは2k次元のベクトル。βpでどのバウンディングボックスか。tがどの時間か。
image.png

○ 学習時ロス
平均二乗誤差
Kは関節分。I,jは幅と高さ分。
=1枚の画像中の誤差をK枚の関節分のHeatMapに対して行う

image.png

これを全クリップに対して行う
クリップ:どのタイミングのフレームを抜き出すか
image.png

③前後フレームの姿勢推定のマージ作業。
image.png

ハンガリアンアルゴリズムで同一人物のキーポイントの割り当てを行う。
前後のフレームでオーバーラップしているキーポイントに対して類似度を取る。

OKSによるSimilarityをとる。
Pβ3-6:t=6時点での3つ目バウンディングボックスの姿勢推定結果を意味する。
OKSは類似度が1に近いほど一致している=同じ人である
以下の例ではt=2のボックス2の姿勢推定結果とt=6のボックス3の姿勢推定結果が似ているため、t=2→t=6 でAさんの位置が変わっていることが分かる。
image.png

image.png

④人の重なりに対する対処
以下は理解不十分な箇所
image.png

image.png

関節の最適な位置は、複数の候補の間で空間的にも、時間的(フレーム間)にも一貫性があると仮定して対応している。
image.png

空間的(1フレームの中で仮定した座標と推測座標の差分)にも時間的(関節の中心位置が連続フレームで最小)にも誤差が小さくなるように割り当てる?
各フレームで右くるぶしの位置が遠くなったり近くなったりしないようにする。常に最短距離になるように割り当てている?

2
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?