論文
論文名
PoseFix: Model-agnostic General Human Pose Refinement Network
著者
Gyeongsik Moon, Ju Yong Chang, and Kyoung Mu Lee
学会
CVPR2019
概要
入力画像と他モデルのポーズ推定出力を入力とすることによってポーズ推定をリファインメントするネットワークPoseFix。エンドツーエンドの2D人物姿勢推定モデルは効率的ではあるが慎重な設計が必要不可欠である。そこで、最先端の2D人物姿勢推定モデルが似通った誤差分布を所持ていることに着目し、それを事前情報として活用する構造になっている。結果として、最先端のポーズ推定手法の性能を一貫して向上させることに成功。
Gyeongsik Moon, Ju Yong Chang, and Kyoung Mu Lee. Posefix: Model-agnostic general human pose refinement network. In CVPR, pages 7773–7781, 2019.
Model-agnostic:モデル非依存。要するに、根幹は機械学習手法と切り離されているからどんな手法にも適用できますよってこと?柔軟性が高い?(https://hacarus.github.io/interpretable-ml-book-ja/agnostic.html)
リファインメント:精製、精練、洗練、上品、高尚、優雅、改善(個所)、改良(点)。要するにより良くするということかな。
貢献
- ポーズ推定モデルとは独立に学習されるPoseFixは誤差統計に基づいており、ポーズリファインメントが可能
- 任意のポーズ推定モデルの出力を入力として受け取ることができる柔軟性とアクセス性
- ポーズリファインメントを成功させるためのcoarse-to-fine pipelineの重要性の提示
- 従来の最先端手法の性能を一貫して向上
Gyeongsik Moon, Ju Yong Chang, and Kyoung Mu Lee. Posefix: Model-agnostic general human pose refinement network. In CVPR, pages 7773–7781, 2019.
coarse-to-fine:coarseは粗いという意味で、それをfineにするのだからあえて粗いものを入力することによってよりリファインメントされるということをこの研究においては示している(のだと思う)。事実、図にあるように他ポーズ推定手法からあえて誤差を加える?ことによって粗い入力を作成しているように思う。ググるとそれなりにこの方法に着目した研究は存在する。
評価
- COCOでの評価
- 従来のポーズ推定手法が固定のリファインメントモデルよりも成功
- 検証セットにおいてcoarse-to-fine pipelineが最も有効であることを確認。当時最先端手法のCPNをベースラインとしてリファインメント成功か否かをチェック
- 特にOKSが入力時に低かったものは改善されており、大きな変位誤差(データ拡張??)もより補正する
- 挙げられている従来手法はほぼ完ぺきにリファインメント成功
Gyeongsik Moon, Ju Yong Chang, and Kyoung Mu Lee. Posefix: Model-agnostic general human pose refinement network. In CVPR, pages 7773–7781, 2019.
OKS:Object Keypoint Similarity。アノテーションされている関節点についての推定座標と正解座標の類似度の平均を表す値(https://engineer.dena.com/posts/2019.11/cv-papers-19-2d-human-pose-estimation/)。