LoginSignup
0
1

More than 3 years have passed since last update.

Peeking into the Future: Predicting Future Person Activities and Locations in Videos

Posted at

Peeking into the Future: Predicting Future Person Activities and Locations in Videos

サーベイ3本目

論文リンクは以下.

https://arxiv.org/pdf/1902.03748v3.pdf

authorがCMU/Stanford/Google AI強そう

key

joint modeling of paths and activities benefits future path prediction

study the future path prediction jointly with the intention

our techniques focus on predicting a few seconds into the future,and should not be useful non-routine activities

概要

従来の動作認識(行動予測)では,人の意思を反映したものではない.

画像から特徴を抽出して推定するものが主.しかし,人の行動は,意思によって決まるものである.

本論文では,人の動きを動画内から観察される意図をmodelingする.

本論文では,future path/future activities を同時に推測する,multi-task learning modelとして,Nextを提案する.

従来手法との違い

・人に関する特徴をpointではなく,周りの物体/人とのinteractionや,body movementなどから得る.

・学習を促進するため,auxiliary task(activity location prediction etc)を導入

ネットワーク(called Next)

image.png

使用するネットワークは,上記.
従来手法では,人の特徴を空間上に点として簡略化して,抽出していたが,本手法では,それぞれの人の豊富な情報を抽出するために,人の情報をencodeするmoduleとして,

Person Behavior ModulePerson Interaction Moduleを使用.

これらによって,人の行動の習慣や,人と人/物の相互作用などの情報を抽出する.

また,抽出された情報から.LSTMを用いて,人の軌跡を推定するTrajectory Generatorと,行動ラベルを予測するActivity predictionを実装する.

Activity Predictionでは,画像を様々なgridに分割(Manhattan Grid)し,行動の起こる場所を推定するLocation predictionも行う.

Person Behavior Module

このモジュールでは,画像内にある全ての人の特徴を抽出する.

このModuleでは,

・Person Appearance Encoder

画像に写っている人/物体のBBoxをRoIAlignを用いて抽出する.

・Person Keypoint Encoder

MSCOCOdatasetを用いて,人の keypoint informationを抽出する.

1は,人のappearanceの抽出,2は,人のbody movementの抽出が目的.

どちらもLSTMでencodingを行う.

Person Interaction Module

このModuleでは,人と人やsurroundingsの相互作用を抽出する

・Person-Scene Encoder

semantic segmentationを利用して周辺環境のpixel-levelの情報からCNNで特徴量mapを作成し,そこに人の情報を付与する.その後LSTMでencoding

・Person-Object Encoder

ここでは,Person Behaviour moduleで得た人と周辺物体/人のBBoxから,上式で,幾何距離.Boxの比を求める.

対数関数を用いることで,近くの物や人によって影響される可能性が高いという観察を反映.

これらから人間の行動に関して,周りから受ける影響を抽出したい.

Visual Feature Tensor Q

上記4つのモジュールから生成される以下の4つの特徴(同次元)

・外観

・体の各部の動き

・人-シーンの関係

・人-人(or物)間の関係

に,一つ前の時刻の軌跡情報

を加えた,5つのVisual Feature Tensor Qを作成.

Trajectory Generator

将来の軌跡の予測をする.

et-1は,t-1秒の予測軌跡からembeddingで抽出.

qtは,Qの主要特徴(salient)を抽出した特徴量

以下の式で導出される

attetion matrix Atと,Sequence attentionmatrix Btを得た後,

内積にて類似性を抽出して,からqtを算出.

Activity Prediction

Activity location prediction(with Manhatttan Grid)

1,まず,画像をh*wのマンハッタングリッドに分割.

2,二つのConvolutionにより位置分類と,位置回帰を行う.

・位置分類

最終位置がManhattan Gridのどの位置になるのか予想

・位置回帰

グリッドの中心と最終的な位置座標の差を予測

これらを同時に行うことで,robustな予測が行える.

Activity label prediction

未来のラベル予測.ラベルは,マルチラベルも考える

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1