More than 3 years have passed since last update.

論文まとめ：Deep High-Resolution Representation Learning for Human Pose Estimation

Posted at 2021-04-15

はじめに

CVPR2019から以下の論文
[1] K. Sun, et. al. "Deep High-Resolution Representation Learning for Human Pose Estimation" CVPR2019
のまとめ

CVF open access:
https://openaccess.thecvf.com/content_CVPR_2019/papers/Sun_Deep_High-Resolution_Representation_Learning_for_Human_Pose_Estimation_CVPR_2019_paper.pdf

公式コード:
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

既に様々な解説が出てるので、ここでは以下の点に焦点を絞ってまとめ。

概要

2D のhuman pose estimation系のモデルでtop-down系である
高解像度を維持したアーキテクチャーであることが特徴
具体的には、高解像度を維持したメインの経路が存在し、それに対して低解像度化した経路を加えている
これら高解像度の経路と低解像度の経路は何度も繰り返しfusionする
このようなアーキテクチャによって、COCO dataset、MPⅡ datasetで高い精度を達成した

これまでのアーキテクチャ

以下は（著者らが言うところの）pose estimationなどで用いられる代表的な４つのアーキテクチャ。

(a) Hourglass系

(a)はHourglass([2])系のアーキテクチャ。

前半でhigh-to-lowで解像度を小さくしながら特徴量を高度化し、後半でその特徴量を高解像度化していく。
前半と後半で対照となっている。途中にskip-connectionが存在。

(b) Cascaded pyramid network系

(b)は[3]等で用いられているCascaded pyramid network系。
前半のhigh-to-lowの部分が巨大で、おおよそImageNetで学習済みResNetのような巨大モデルの一部を用いる。low-to-highは軽め。終盤に複数の解像度の特徴量をconcatする。途中にskip-connectionが存在。

(c) SimpleBaseline系

(c)は[4]で用いられているアーキテクチャ。
(b)と同様high-to-lowが重い。low-to-highはdeconv（transpose conv）を使用。

(d) dilated convを用いる系

(d)は[5]などで用いられているdilated convを用いたアーキテクチャ。
重いhigh-to-lowの後、delated convを用いる。

HRNetのアーキテクチャ

本手法HRNetでは以下の図のように

高解像度の経路がまず存在し、それをhigh-to-lowした経路が現れ、それらが平行に進む。さらに途中で何度か異なる経路の特徴量をfusionさせる。
高解像度の経路からみると、低解像度で高度に特徴量かされたものが混じるので、高度な特徴量が高解像度化される効果を期待している。

その他

top-down系
heatmapを使う系で、targetはそれのみ
アーキテクチャ内の各ユニットはResidualなblock

実験と結果

COCO datasetに対する定量的評価

以下はCOCO datasetのtest dataに対する他のモデルとの精度比較表。

CPNやSimpleBaselineと比較しても精度がよい。

MPII datasetに対する定量的評価

MPII datasetのtest dataに対する他のモデルとの精度比較表。

PCKのtotalでみた場合、[6]と同様に最高精度。

PoseTrack2017に対する定量的評価

PoseTrack 2017 のtest dataに対するmAPとMOTAは以下。

こちらも最高精度。

fusionのablation study

高解像度と低解像度を途中でfusionするmulti-scale fusionの効果を検証。

AP 数パーセントの上昇に寄与している。

入力サイズと精度・速度の関係

以下は入力サイズを変えた場合の精度（AP）と速度（Gflops）の変化

入力サイズを大きくすると当然、速度は低下するが、精度は緩やかに上昇。

256x192あたりで精度がサチッてるので、タスクによってはこのサイズでよいかも。

reference

[2] A. Newell, K. Yang, and J. Deng. Stacked hourglass net- works for human pose estimation. In ECCV, pages 483–499, 2016

[3] Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun. Cascaded pyramid network for multi-person pose estimation. CoRR, abs/1711.07319, 2017

[4] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. In ECCV, pages 472–487, 2018.

[5] E.Insafutdinov,L.Pishchulin,B.Andres,M.Andriluka,and B. Schiele. Deepercut: A deeper, stronger, and faster multi- person pose estimation model. In ECCV, pages 34–50, 2016.

[6] W. Tang, P. Yu, and Y. Wu. Deeply learned compositional models for human pose estimation.

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up