More than 5 years have passed since last update.

最近の姿勢推定モデルを解説してみた（Cascaded Pyramid Network）

Last updated at 2019-04-16Posted at 2019-04-16

はじめに

今回は、姿勢推定における一般的なアプローチの紹介と、最新論文を１つ紹介する。
紹介する論文は、Cascaded Pyramid Network for Multi-Person Pose Estimation¹。

（特に断りのない限り，本記事で使用する画像は、こちらの論文¹からの引用。）

姿勢推定モデルには、大きく２つのアプローチがある。

ボトムアップ型は、最初にキーポイントを洗い出したあと、それらを繋ぎ合わせていくことで、姿勢を推定する。
トップダウン型の手法に比べると、計算量は抑えられるが、画像全体のコンテキストを十分に考慮できていないため、部位間の繋ぎ合わせの精度が低い という欠点がある。

参照：DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation²

①物体検知アルゴリズムで人物を検出
　↓
②それぞれの人物について、姿勢を推定

人数に比例して計算量も増加してしまうのが欠点だが、各人に対して姿勢推定を行う（single person pose estimation）ので、精度高く推定できる。

参照：Multi-Person Pose Estimation with Local Joint-to-Person Associations³

次のような状況のときは、ボトムアップ型・トップダウン型を問わず、推定が難しい。

姿勢推定における一般的なアプローチ２種類の紹介と、最新論文を１つ紹介した。
最新論文では、隠れて推定しづらいキーポイントでも、精度高く推定できる手法を紹介した。

ヒトやモノをデータ化＆解析してみたい、という方。
３D技術と深層学習を組み合わせて、何か面白いサービスを作ってみたい！、という方。

弊社では一緒に働いてくれる仲間を大募集しています。

ご興味がある方は下記リンクから是非ご応募ください！
https://about.sapeet.com/recruit/