More than 3 years have passed since last update.

論文まとめ：3D human pose estimation in video with temporal convolutions and semi-supervised training

Posted at 2021-09-01

はじめに

CVPR2019より以下の論文
[1] D. Pavllo, et. al. "3D human pose estimation in video with temporal convolutions and semi-supervised training" CVPR2019
のまとめ

公式github:
https://github.com/facebookresearch/VideoPose3D
facebook researchから出てる。商用利用不可。

モデルの略称：
VideoPose3D

以下、個人的に興味のある部分のみ、ざっくりまとめ。

以下の図のように、sequentialな2d-poseを入力とし、dilated convで畳み込み、3d-poseを推定する。

以下がモデルの全体像。

上側半分が3Dのアノテーション用いた教師あり学習。左から2Dのposeを入力し、Pose modelで3Dのposeを推定する。一方 trajectory modelからは3Dのtrajectoryを推定する。

これら２つとground truthとの差をlossとする。

一方、下側は対応する3Dのアノテーションが存在する場合の教師なし学習。左から2D poseを入力し、3D poseと3Dのtrajectoryを推定する。

これらをカメラの内部行列を用いて画像座標にprojectし、2D上でlossを求める。

また推定した3Dのposeから各boneの長さを求め、これをアノテーションから取得した平均的なboneの長さと比較し、lossとする。

Human3.6MのProtocol1でのMPJPEを他のモデルと比較したものは以下。

sequentialなデータを用いてfullのアーキテクチャで学習したものは概ねSOTA。

以下は教師あり学習のみの場合と、半教師学習した場合との比較

オレンジの点線（教師ありのみ）に比べて黒の実線（半教師）はMPJPEが改善している。