第45回 コンピュータビジョン勉強会@関東ではやはり深層学習によるポーズ推定に関する発表が多く、今回は三件の発表があった。うち一件は会社には知らせていないとのことなので、次の二件についてのメモ。
一件はドワンゴのOpenPoseを使って2Dでのポーズ推定ののち、GANによって3Dへの逆投影を行うというもの。実演では会場が暗いためポーズ推定がうまくいかず、アリシアちゃんのモデルがたびたびパンツ丸見えになっていた。後で聞いたところ元々COCOデータセットを使って学習したポーズ推定の精度があまり高くないようで、3Dへの逆投影自体はうまくいってるとのこと。
ただ、MicrosoftのCOCOデータセットでは人物が写ってるものの、豆粒みたいに小さかったり、keypointのうち一部しかアノーテーションされていなかったりでポーズ推定を目的とした学習には向いていないと思う。むしろDeepPoseなどで使用したLSP(スポーツ画像で全身)やFLIC(映画で上半身)データセットのほうが学習効率は良いはず。
もう一件がチームラボで暗い会場の展示に使用するためRGB画像ではなくデプス情報からのポーズ推定。こちらはChainerCVでの実装とのことで、デプス情報の精度もありあまりkeypointの精度は高くなかった。ただ、これは来場者とのインタラクションが目的なのでこれで十分だと思う。
詳細は明かせないものの、残りの一件は元々社内で蓄積された映像があり、ここから1000件程度についてkeypointを手作業で収集、元の学習データとして理想的なためポーズ推定の精度も高かった。
一件目が商用利用についての制限があるOpenPoseを使用しており、精度の問題もあるため別のポーズ推定に切り替えるのではないかと思われる。(ドワンゴのVRM使用を想定)
ポーズ推定はインスタンス・セグメンテーションとの併用で様々な応用が考えられるため、学習データについても要検討項目