Alahi, Alexandre and Goel, Kratarth and Ramanathan, Vignesh and Robicquet, Alexandre and Fei-Fei, Li and Savarese, Silvio, "Social LSTM: Human Trajectory Prediction in Crowded Spaces", in CVPR2016, pp.961-971, 2016Online PDF at CVF
1.どんなもの?
歩行者は互いの未来の位置を予測し,衝突を避けるために経路を調整する
→過去の位置に基づいて人々の未来の軌道を予測するシーケンスタスクと言い換えられる.
この論文では一般的な人間の動きを学習し,将来の軌道を予測するLSTMモデルを提案する.
2.先行研究と比べてどこがすごいの?
先行研究では2つの前提条件下での実装である
1)ハンドクラフトな関数を用いて相互作用のモデル化を行なっている
2)密接している人々の相互作用のモデル化に焦点を当てている(離れている人間同士が遠い未来でぶつかるような事象は考慮しない)
本論文では,未来の瞬間における人間の軌道を予測するための新しいデータ駆動型アーキテクチャを介して、2つの前提条件下に対処できるアプローチを提案している.
3.技術や手法の肝はどこにあるか?
空間的に近接したシーケンスのLSTMが互いの隠れ層の状態を共有することができるSocial-poolingの実装.
Social-poolingを導入したSocial-LSTMは時間的に一致する軌道間で起こる典型的な相互作用を自動的に学習する.
シーン内の各一人一人に一つのLSTMを用意する.
特定の半径内の全てのLSTMの隠れ状態は一緒にpoolingし,次の時間ステップで入力として渡されることで,隣接するLSTMと接続する.
すべての人が異なる数の隣人を持ち、非常に密集した群衆では、LSTMの数は非常に高くなる
→すべての隣接状態からの情報を組み合わせたコンパクトな表現が必要
1.特定の半径内にあるLSTMをピックアップ
2.そのLSTMが区切られた小領域内に複数存在する場合,連結してpoolingを行う(データを一つに)
http://cvgl.stanford.edu/papers/CVPR16_Social_LSTM.pdf
eは特定の半径内の隠れ状態の情報をpoolingした値
hはeと一つ前のhの値を連結してLSTMに入力した値
4.どうやって有効だと検証した?
ETHとUCYの2つの公開されている人間歩行軌跡データセットで計5つのデータセットに対して実験を行った
実験は3.2秒間の軌跡を観察し,4.8秒間の経路を予測する.
比較には
1.予測した全部の軌跡の平均変位誤差
2.人と人がぶつかりそうな領域の平均変位誤差
3.予測軌跡の最後の変位誤差
を使う
O-LSTMはSocial-LSTMの簡略化したもので,LSTMから出てくるリッチな情報をプーリングしたものを使うのではなく,位置情報だけを使って予測
上から3つは正しく予測できている例
最後の行は人が減速,直線的な動きをとった時の失敗例