JRDB-Pose: A Large-Scale Dataset for Multi-Person Pose Estimation and Tracking
CVPR2023の論文です。
JRDB datasetに対する姿勢・トラッキング情報を追加し、データセットの拡張を行いました。
概要
JRDB-Poseは、社会的なナビゲーションロボットから取得されたビデオを拡張した大規模なデータセットで、多人数のポーズ推定とトラッキングのためのベンチマークです。このデータセットは、大学キャンパスの環境で撮影され、屋内外の混雑したシーンを含み、様々なスケールや遮蔽タイプが特徴です。JRDB-Poseは、キーポイントの遮蔽ラベルとトラックIDが一貫して付与されたポーズアノテーションを提供します。
1. 背景と目的
混雑したシーンや人間とロボットの近接した相互作用では、人体の動きとボディダイナミクスを時系列で推定し追跡することが重要です。既存のデータセットは、ロボットプラットフォームから取得されたものが少なく、ポーズアノテーションを提供しないか、社会的ロボットのシーン分布を反映していないことが多いです。
JRDB-Poseは、これらの課題を克服し、複雑な人間の動作と相互作用を研究するための新しいチャレンジを提供します。
2. データセットの特徴
-
ポーズアノテーションとトラッキングID: 各キーポイントには遮蔽ラベルが付与され、シーン全体で一貫したトラックIDが割り当てられています
遮蔽ラベル:人と人とが重なっていたり、人の前に物体があったり、人の完全に姿勢推定することができない部分(肩とか足とか)に対するラベル
-
高頻度アノテーション: 長時間のシーンでの高頻度アノテーションにより、動的な動きや遮蔽を伴うシーンでの精度を高めます
-
多様なシーン: 屋内外の混雑したシーン、異なるスケール、複数の遮蔽タイプを含む広範なデータを提供します。
3. ベンチマークと評価指標
3.1 Object Keypoint Similarity (OKS)
OKSは、人体のキーポイント推定の精度を評価するために用いられる指標です。
具体的には、以下のように計算されます。
$ OKS(x_i, y_j) = \exp \left( - \frac{d_E(x_i, y_j)^2}{2 s^2 k^2} \right) $
- $d_E(x_i, y_j)$ は、GTのキーポイント $x_i$ と予測されたキーポイント $y_j$ との間のユークリッド距離です。
- $s$ はGTのバウンディングボックスの面積です。
- $k$ はキーポイントごとに異なるスケール定数です。
3.2 提案手法
3.2.1 OSPA-Pose
OSPA-Pose (Optimal Sub-Pattern Assignment for Pose) は、OKSをベースにした新しいポーズ推定の評価指標です。これは、ポーズ間の最適なサブパターンマッチングを考慮し、以下のように計算されます。
$ Opose(X, Y) = \frac{1}{n} \left( \min_{\pi \in \Pi_n} \sum_{i=1}^{m} d_K(x_i, y_{\pi_i}) + (n-m) \right) $
- $X$ と $Y$ は、GTと予測されたポーズの集合です。
- $d_K(x_i, y_j) = 1 - OKS(x_i, y_j)$ は、ポーズ間の正規化距離です。
3.2.2 OSPA(2)-Pose
OSPA(2)-Poseは、ポーズトラッキングのための新しい評価指標です。これは、時間平均距離を考慮し、以下のように計算されます。
$ O2_{pose}(X, Y) = \frac{1}{n} \left( \min_{\pi \in \Pi_n} \sum_{i=1}^{m} ed(X_i^{D_i}, Y_{\pi_i}^{D_{\pi_i}}) + (n-m) \right) $
- $ed(X_i^{D_i}, Y_j^{D_j})$ は、各トラック間の時間平均距離です。
- $d_O({X^t_i}, {Y^t_j})$ は、キーポイントの可視性に基づく距離です。
4. 結論
JRDB-Poseは、多人数のポーズ推定とトラッキングに対する新しいベンチマークを提供し、ロボティクスと人間の相互作用の研究を進展させることを目的としています。このデータセットを活用することで、研究者は複雑なシーンでのポーズ推定とトラッキングの精度を向上させることが期待されます。
この論文は、ポーズ推定とトラッキングの研究において新しい挑戦と機会を提供するものであり、これによりロボティクス分野におけるさらなる発展が期待されます。