1. 概要
動画の与えられたシーケンスから次に起こるアクションや動作・行動を予測する技術をアクション予測(Action Forcasting)と呼び、ロボットの行動計画や監視システムの高度化などで用いられている。この研究は、トランスフォーマーを使ったリアルタイムアクション予測(>=25FPS)を行うもので、現在フレームから遡ってどれだけ前の情報を予測に使えるかをレイテンシーとして捉え、予測精度とレイテンシーのトレードオフを発見した。
2. 新規性
時間方向に対して頑健性が得られるようにするために自己教師有りのシャッフルネットを導入しており、モデルの汎化性を向上させることに成功している。この研究ではリアルタイムのアクション予測ではレイテンシーが40msまでは精度が向上するが、それ以降では減少することを明らかにしている。大きなレイテンシーがある場合、モデルはより多くの情報を予測に使えるため一般的に精度が上がるが、小さいレイテンシーの場合、より新しい情報だけにフォーカスできる一方で参照情報量が減るため予測が難しくなる。
3. 実現方法
高解像度のショートクリップ動画から高次元特徴を抽出する前段のトランスフォーマーネットワークと、複数のショートクリップ動画の特徴を時間方向で集約して長期的な将来の動作予測を行う後段のトランスフォーマーネットワークの二段構成になっている。シャッフルネットは前段のトランスフォーマーに組み込まれており、動画の時間方向に対してシャッフルされても元に戻せるよう高い汎用性を獲得できる設計になっている。フレーム番号は既知なのでシャッフルされても時間的な一貫性が失われることはない。
4. 結果
リアルタイム動作させるためにネットワークがシンプルになっており、従来研究と同等精度で9倍レイテンシーを小さくすることに成功した。また、トレーニング時の計算量を94%削減し、トレーニングパラメータを90%削減している。その上で、従来手法よりも高精度なリアルタイムアクション予測を実現している。
last updates: June 23 2023