More than 5 years have passed since last update.

論文まとめ：A simple yet effective baseline for 3d human pose estimation

Posted at 2019-05-11

はじめに

以下の論文
[1] J. Martinez, et. al.
A simple yet effective baseline for 3d human pose estimation
のまとめ。ICCV2017にacceptされている。

２年前に発表された古い論文だが、その後の論文に与えた影響を考えて、ざっくりリサーチする。

コードは著者らのかどうかわからないが
https://github.com/una-dinosauria/3d-pose-baseline
などいくつか存在。

単眼・RGB画像から３次元骨格を推定する際に生じる誤差が、２次元骨格を推定する時の誤差に由来するのか、あるいは２次元骨格を３次元骨格に変換する時の誤差に由来するのかをリサーチした
結論としては、２次元骨格を推定する時の誤差に由来していた
その際に単純なMLPでも２次元骨格を３次元骨格へ精度よく変換できることを示した

関節の個数を $n$とする。

２次元における各関節の座標を ${\rm \bf x} \in \mathbb{R}^{2n}$ 、３次元における各関節の座標を ${\rm \bf y} \in \mathbb{R}^{3n}$ とする。

検証したい内容は $f^* : \mathbb{R}^{2n} \to \mathbb{R}^{3n}$ なる $f^*$ がどれくらいの精度をもっているか。

よって

f^* = \min_f \frac{1}{N} \sum^N_{i=1} \mathcal{L} (f({\rm \bf x}_i) - ({\rm \bf y \rm}_i))

を求める。$f^*$ はニューラルネットとする。

$f^* : \mathbb{R}^{2n} \to \mathbb{R}^{3n}$ の $f^*$ は以下のようなアーキテクチャ。

[1]figure1より

（全結合ーbatch normーreluーdropout）x2 したものに入力をaddするresicual blockが２つ。

２次元の骨格は[2]のstacked hourglassを用いて求める。

結果の１つはこんな感じ。

[1]table2より

他の手法よりロスがかなり低い。・・・２次元骨格から３次元骨格への変換部分は誤差が少ないと言える。

[2] A. Newell, K. Yang, and J. Deng. Stacked hourglass net-
works for human pose estimation. In ECCV, 2016.