初めに
この記事は著者の理解を深めるために書いた記事です。
ちゃんと理解した内容を書いているつもりですが、初学者が書いているため、間違いがあるかもしれません。
もし間違いがありましたら指摘していただけると大変嬉しいです。
原著論文:https://arxiv.org/pdf/2307.06737
研究紹介サイト:https://mirapurkrabek.github.io/RePoGen-paper/
以下、記事内で使用している画像については全て原著論文を参照しています。
概要
ゲームエンジンで難しそうな姿勢を複数生成し、それをデータセットに追加して学習させた
珍しい場面の姿勢において精度向上
どんなもの?
難しい(見えにくい)姿勢に注目して姿勢推定する。現在、PoseEstimationでよく使われているCOCOデータセットにはスポーツの場面などで見られる極端な姿勢のシーン(上面図とか下面図とか)が少なく、そういう珍しい場面に対する姿勢推定は各モデルの精度を低下させる要因になっている。そこで包括的にポーズを確認できる合成データ生成のための新たな手法を提案。
先行研究と比べてどこがすごい?
人や体の一部を追加してオクルージョンをシミュレートする方法も存在するが、多角的な視点を考慮するものでない。ゲームエンジンを用いた合成データ精製方法も存在するが、ポーズのばらつきに制限があり、日常的な生活ポーズしか生成できない。これらに対し、関節の制約や確率パラメータを入力し、ポーズを生成、テクスチャを貼り付け、光とカメラの位置・背景をセッティングすることで、珍しいポーズデータも生成することが可能に。
技術や手法のキモはどこ?
関節や回転角度に制限をもたせることで、珍しいポーズでかつ非現実的なポーズを排除できていること。
どうやって有効だと検証した?
生成したデータを通常のCocoデータセットのみで学習させたモデルと拡張データセットで学習したモデルで比較し、精度が上がっていることを確認した。