Neural Interactive Keypoint Detection
概要
Neural Interactive Keypoint Detectionは、Click-Poseと呼ばれるエンドツーエンドのインタラクティブキーポイント検出フレームワークを提案している.
このフレームワークは、2Dキーポイントアノテーションのラベリングコストを手動のみのアノテーションと比較して10倍以上削減できる.
Click-Poseは、ユーザーフィードバックとニューラルキーポイント検出器を協力させ、インタラクティブに予測されたキーポイントを修正し、より迅速かつ効果的なアノテーションプロセスを実現する.具体的には、地上真のポーズと4つの典型的なポーズエラーをデコーダに入力し、モデルが正しいポーズを再構築するためのポーズエラーモデリング戦略を設計し、モデルの自己修正能力を強化する.
ユーザーは、モデルが出力した暫定のキーポイントに対して、間違っている箇所があれば、そこを修正してあげるだけ。それによって、モデルはキーポイント全体を修正する!
従来手法との比較
従来のマルチパーソンポーズ推定モデルは、トップダウン法とボトムアップ法の二つのカテゴリに分かれる:
- トップダウン法: 各人物を検出し、その領域内でポーズ推定を行う
- ボトムアップ法: キーポイントを検出し、それをグループ化して個々の人物のポーズを推定する
これらの手法には高い性能を示すものもあるが、特に手動のアノテーションには多大な労力が必要であり、誤検出や高密度なシーンでの問題が残っていた.
新規性
Click-Poseの新規性は以下の点にある:
- ポーズエラーモデリング: モデルが自己修正能力を持つように、4つの典型的なポーズエラー(ジッター、ミス、スワップ、インバージョン)を含むエラーポーズクエリを導入し、デコーダで正しいポーズを再構築するタスクを設定
- インタラクティブフィードバックループ: ユーザーのクリックを受け取り、一部のキーポイントを修正し、それを元に他のキーポイントを更新することで、最小限の手動修正で高精度なアノテーションを実現
方法論
- ポーズエラーモデリング: 地上真のキーポイントと4つのエラーポーズをデコーダに入力し、正確なポーズを再構築するタスクを設定
- インタラクティブフィードバックループ: ユーザーのクリックに基づいてキーポイントを修正し、デコーダを使用して他のキーポイントを更新
- クエリの初期化: 予測されたキーポイントから修正された位置クエリを取得し、ラベルエンベディングを使用して修正されたコンテンツクエリを初期化
結論
Click-Poseは、ユーザーのインタラクションを活用して高精度で効率的なキーポイントアノテーションを実現する新しいエンドツーエンドフレームワークを提案している.この手法は、従来のモデルの課題を克服し、様々なシーンでの応用が期待される.今後の研究では、全身アノテーションやマルチタスクアノテーション、3Dアノテーションなど、さらに多くの応用分野への展開が期待される.