1. 概要
動画において連続するフレーム間のピクセルレベルでの動き情報を表現する方法としてオプティカルフロー(Optical Flow)が知られる。この研究では、オプティカルフローをセグメンテーションすることで前景物体の抽出を行っている。特に、時間的な動きの一貫性を評価項目に入れてセグメンテーションすることで従来手法よりも高精度なセグメンテーションを実現している。
2. 新規性
教師なし学習を用いてネットワークを訓練しており、損失関数には時空間的にパラメトリック推定をするモデルを採用してオプティカルフローの再構築を行っている。推論速度が速く、GPUを用いて100fpsで動作する。
3. 実現方法
オプティカルフローのフレームを入力として、時系列に沿って一貫性のあるようなセグメンテーションを予測する。まず、時空間的なパラメトリック推定のモデルについてパラメータを計算し、次に損失関数を求めてバックプロパゲーションに沿ってネットワーク全体のパラメータをアップデートしていく。ここで、生成されるマスクの一貫性を保つために時間的な一貫性を担保するように正則化を入れている。また、損失関数はReconstruction Loss(Lr)とTemporal Consistency Loss(Lc)があり、Lrは4クラスでパラメトリック推定を用いてセグメンテーションするときにオプティカルフローの再構築に使用し、Lcはセグメンテーションの4クラスのラベルが時間的に散在しないように用いる。
4. 結果
教師なしによるセグメンテーション結果から時間方向に一貫性のあるクラス分類ができていることがわかる。また、従来手法と比べて複数のデータセットで効果があることを示している。
Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Meunier_Unsupervised_Space-Time_Network_for_Temporally-Consistent_Segmentation_of_Multiple_Motions_CVPR_2023_paper.pdf
last updates: July 18 2023