1. 概要
動画の各フレーム間で画像のピクセルレベルの動きや変化を表現する手法のことをオプティカルフロー(Optical Flow)と呼ぶ。一般的に、オプティカルフローの計算はピクセル単位で動き方向のベクトルを求めるため、空間的に密に動き情報を求めようとすると演算時間がかかる。従来研究では、入力画像の解像度を小さくリサイズして演算量を削減する工夫が用いられていたが、小さな物体の動きがわからなくなるなど弊害も大きかった。この研究では、低解像度の入力から任意のスケールで出力のオプティカルフローを予測する多重解像度モデルを採用しており、アップサンプリング時にImplicit Neural Representations(INRs)を用いている。INRsはモデルがデータ内に埋め込まれた複雑なパターンや関係性を自分自身で学習する手法のことを指す。
2. 新規性
低解像度な画像から任意の解像度のオプティカルフローの出力が得られるため、例えば50%縮小した画像から詳細な動き情報を予測することができる。特に、遠方の小さい物体は空間解像度が縮小すると情報量が非常に小さくなり推定が困難だが、提案手法では非常に頑健に多様な動きを予測することが可能となった。
3. 実現方法
従来手法であるRAFT(ECCV2020)をベースに、3つの改善を行っている。
- アップサンプリング時にImplicit Neural Representations(INRs)を採用し、低解像度の入力から任意のサイズのオプティカルフローを生成する
- アップサンプリングした多重解像度のオプティカルフローの出力を合成(Warping)する
- GRU(Gated Recurrent Unit)を用いてオプティカルフローの長期的な時間方向の依存性を捉え、空間的なサンプリング位置が動的に変化するルックアップテーブルを用いることで、入出力のサイズを自由に変えて予測できるようにする
4. 結果
KITTIデータセットを用いた手法の汎用性をテストするCross-dataset Generalizationのタスクで最高記録を更新した。また、オンラインベンチマークにおいても既存手法と同等性能を達成している。
last updates: July 10 2023