機械学習Advent Calendar 2024

論文まとめ：Visual-based Positioning and Pose Estimation

Last updated at 2024-12-16Posted at 2024-12-16

（緑の枠で囲まれている箇所は私のコメントで要約の内容ではありません。）

はじめに

本記事では、2020年の国際会議で発表された論文についてまとめます。この論文は、画像を用いた位置推定と姿勢推定に関する内容です。私自身、趣味でダンスをかじっているのですが、ダンスの動画を撮影して、その動画から自分の動きを見返すことがあります。その際に、位置推定や姿勢推定の技術が使えないかと考えたことがあります。そのため、この論文に興味を持ちました。

Phon-Amnuaisuk, Somnuk, et al. "Visual-based positioning and pose estimation." Neural Information Processing: 27th International Conference, ICONIP 2020, Bangkok, Thailand, November 18–22, 2020, Proceedings, Part IV 27. Springer International Publishing, 2020.

Springerのリンク：Visual-Based Positioning and Pose Estimation | SpringerLink
Arxivのリンク：[2204.09232] Visual-based Positioning and Pose Estimation

本記事は、CC BY 4.0ライセンスの元で公開されているArXivから飛べる論文を参考にしており、SpringerLinkの方の内容は確認できていません。

1. はじめに

Deep LearningとComputer Visionを用いた位置推定と姿勢推定のパイプラインが提案をする。
Mask R-CNNを用いて、バドミントンコート上の選手の位置と姿勢を推定する。

2. 関連研究

R-CNNを拡張したFast R-CNN, Faster R-CNNは領域提案の数を減らしつつも、精度を向上させることができる。R-CNNの別の拡張として、RoIプーリングを追加し一つ前のCNNの出力を固定サイズのベクトルに変換するものもある。
Mask R-CNNはFaster R-CNNに対して、セグメンテーションマスクを出力し、さらにRoIAlignを用いています。RoIプーリングはバウンディングボックスサイズを整数倍にする必要があったが、RoIAlignは4つの近接点の情報を用いて各サンプリング点の値を計算することで、整数倍にしなくても良い。

R-CNN系のモデルについては、以下の資料が参考になります。

2.1. 人間の活動認識 (Human Activity Recognition)

視覚ベースのHAR（VHAR）は、加速度センサーやRFIDなどのセンサーを使用する場合に比べて、複雑になる。
一方で、VHARを導入する際は最小限もしくは全くのセンサーを使用しないことができる。

2.1.1. 知識表現（Knowledge Representation）

VHARの問題は、画像認識（Image Recognition）の観点から一般的に定式化され、グレースケール化、スケール不変特徴変換（Scale-Invariant Feature Transform, SIFT）、space-time interest points（STIP）などの特徴量抽出手法が提案されている。
ただ、上記の手法は画像の特徴は抽出できても本質的な意味を捉えることはできないため、日々研究が続けられている。

画像認識に関する特徴量抽出手法については、以下の資料が参考になります。

本論文でも紹介されていた論文の一つを以下に示します。

Xu, Danfei, et al. "Scene graph generation by iterative message passing." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

2.2. 人間の骨格ポーズ推定 (Human Skeleton Pose Estimation)

Motion Capture (MOCAP) は3Dポーズ推定タスクの一例で、複数のカメラで手首や膝などのマーカーを検出することで、人間の骨格モデルを推定する。
単一の深度画像からリアルタイムで人間の骨格ポーズを推定する手法も提案されている。
物体検出技術は、人間の体のキーポイントをマーカーなしで検出でき、近年の研究でその精度も向上している。

本論文でも紹介されていた単一の深度画像からリアルタイムで人間の骨格ポーズを推定する論文を以下に示します。

Shotton, Jamie, et al. "Real-time human pose recognition in parts from single depth images." CVPR 2011. Ieee, 2011.

3. バドミントンゲーム分析の研究

バドミントンは20ft x 44ftのコートで行われるスポーツで、シングルスとダブルスの2つのカテゴリーがある。
従来の分析は、専門家が手動で行ってきた。
しかし、深層学習やコンピュータビジョン技術を用いることで、プレイヤーの位置や動きを自動的に追跡できるようになり、それをパフォーマンスに関連付けることで深い洞察が得られる可能性がある。

フィートとは、30.48cmのことです。つまり、バドミントンコートは6.1m x 13.4mです。

参考：いろいろな単位の由来。あなたはどこまで知っていますか？ | 「タキレポ」産業用金物・工業用金物の「タキゲン」が発信するメディア

3.1. Outside-in Vision-based Positioning Worfklow (OV-Positioning)

OV-Positioningワークフローは、３つのタスクで構成される。
物体検出、探知による追跡（Tracking-by-detection）、実世界座標への変換

3.1.1. 物体検出

Mask R-CNNとResNet-101をバックボーンとして使用し、バドミントンコート上のプレイヤーを検出する。

ResNetについては、以下の資料が参考になります。

3.1.2. 探知による追跡（Tracking-by-detection）

Mask R-CNNの出力を用いて、プレイヤーの追跡を行うが、いくつか成約を加えた。
1. 空間的成約：プレイヤーコード外の検出された物体を無視する。
2. フレーム間の連続性：フレーム間で大きく移動するバウンディングボックスは、誤った検出として無視する。
3. プレイヤー数の制限：最大2人のプレイヤーを追跡することで、誤検出(False Positive)や未検出(False Negative)を対処。

3.1.3.平面間への射影変換

人間の床上の位置座標は、カメラビューで得られた位置からHomography Transformationを用いて推定できます。

Homography Transformationについては、以下の資料が参考になります。

Shogo さんのブログ：ホモグラフィ - Shogo Computing Laboratory
abetanさんの記事：ホモグラフィ行列の求め方 #Python - Qiita

3.2. Skelton-based 3D Pose (S3D-Pose) 推定ワークフロー

前述のOV-Positioningワークフローに加え、ポーズ推定を行う。
2Dおよび3Dのポーズ推定には「Lifting from the Deep」（LD）と呼ばれる手法を使用する。

論文内で紹介されていたLDに関しての論文を以下に示します。

Tome, Denis, Chris Russell, and Lourdes Agapito. "Lifting from the deep: Convolutional 3d pose estimation from a single image." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

4. 位置とポーズ推定の評価

OV-Positioningの結果と、コートの真上からのカメラを比較して評価をした。
1. カメラに近いプレイヤーの平均誤差は32cm
2. カメラに遠いプレイヤーの平均誤差は62cm
3. 誤差は主にプレイヤーの動きが速いと生じているため、フレームレートを上げることで改善できる。
3Dポーズ推定はできたが誤差が発生しやすく補完が必要であった。
1. Inbetweening Technique を用いて、フレーム間のポーズを補完することで、誤差を減らすことができた。
3Dキーポイントをt-SNEで可視化し、グルーピングができることを確認した。

以上が、論文の内容の要約でした。以下は、私の感想です。

感想

本論文を通じて、バドミントンコート上のプレイヤーの位置とポーズを推定するためのワークフローを学びました。また、位置推定とポーズ推定の評価方法についても学びました。

ダンスの練習に活かせるかはわかりませんが、画像を用いた位置推定と姿勢推定の技術は、スポーツ分析やモーションキャプチャなどに活用されていることがわかりました。

詳細なアルゴリズムについては理解しきれていない部分もありますが、おおまかにどのような手法が使われているのかを知ることができてよかったです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up