はじめに
CVPR2019より以下の論文
[1] D. Pavllo, et. al. "3D human pose estimation in video with temporal convolutions and semi-supervised training" CVPR2019
のまとめ
CVF open access:
https://openaccess.thecvf.com/content_CVPR_2019/html/Pavllo_3D_Human_Pose_Estimation_in_Video_With_Temporal_Convolutions_and_CVPR_2019_paper.html
公式github:
https://github.com/facebookresearch/VideoPose3D
facebook researchから出てる。商用利用不可。
モデルの略称:
VideoPose3D
以下、個人的に興味のある部分のみ、ざっくりまとめ。
概要
- videoに対して 3D の姿勢を推定するモデル
- 教師ありと教師なしを組み合わせて学習する(半教師学習)
- 3d-poseのラベルがあるデータに対しては教師ありで学習する
- 3d-poseのラベルがないデータに対しては3Dを2Dに再投影したものとの差などでlossを計算する
- neural networkのアーキテクチャとして dilated convolutionを用いることで、効果的に時間方向から特徴量を抽出している
以下の図のように、sequentialな2d-poseを入力とし、dilated convで畳み込み、3d-poseを推定する。
手法
以下がモデルの全体像。
上側半分が3Dのアノテーション用いた教師あり学習。左から2Dのposeを入力し、Pose modelで3Dのposeを推定する。一方 trajectory modelからは3Dのtrajectoryを推定する。
これら2つとground truthとの差をlossとする。
一方、下側は対応する3Dのアノテーションが存在する場合の教師なし学習。左から2D poseを入力し、3D poseと3Dのtrajectoryを推定する。
これらをカメラの内部行列を用いて画像座標にprojectし、2D上でlossを求める。
また推定した3Dのposeから各boneの長さを求め、これをアノテーションから取得した平均的なboneの長さと比較し、lossとする。
実験と結果
定量的評価
Human3.6MのProtocol1でのMPJPEを他のモデルと比較したものは以下。
sequentialなデータを用いてfullのアーキテクチャで学習したものは概ねSOTA。
反教師学習の効果
以下は教師あり学習のみの場合と、半教師学習した場合との比較
オレンジの点線(教師ありのみ)に比べて黒の実線(半教師)はMPJPEが改善している。