はじめに
本研究は,ACMMM 2020 に採択されたものであり,本記事では,技術的な内容についてまとめる.
Sun, C., Jia, Y., Hu, Y., & Wu, Y. (2020, October). Scene-aware context reasoning for unsupervised abnormal event detection in videos. In Proceedings of the 28th ACM international conference on multimedia (pp. 184-192).
概要
ビデオにおける異常イベントの検出において,文脈情報を取り入れることは重要である.例えば,道路の交通状況において,渋滞中に車が止まるのは正常だが,通常の場合は異常である.従来手法では,文脈情報の利用にあたり,事前に手動で定義された情報に依存していたが,この場合.事前情報の完全性に制限されてしまう.そこで本論文では,データから自動的に文脈情報を取得することで,異常イベントの検出を強化する新しいアプローチが提案されている.
技術的なポイント
Spatio-Temporal Context Graph (STC Graph)
文脈情報は,STC Graphにエンコードされる.そのために以下の流れをとる.
- 各フレームから,Region Proposal Network1 を用いて物体認識を行う
- Mean-field23を用いてグラフ推論を行い,検出した物体をノード,物体間の位置関係をエッジとして表現し,SC Graphを作成する
- SC Graphを,Structural-RNNに入力することで,STC Graphを得る
Unsupervised Learning via Scene Clustering
SC Graphを新たに構築した上図に表されるGraph-based Deep Gaussian Mixture Model (GMM) に入力し,その出力を用いてクラスタリングを行い,正常クラスターと異常クラスターに分けることで,異常イベントの判定を行う.
GMMでは,SC Graphに対してGCNによる埋め込みを行ったのち, Average Pooling Layer (AP) と,MLNを通すことでベクトル表現を得る.
本研究の重要性
セマンティックギャップの克服
STC Graphを構築することで,物体と物体間の時間的・空間的な関係をグラフ表現に符号化し,文脈情報を明示的にモデル化することができる.さらに,GMMの開発により,教師無し学習で効果的に正常/異常イベントを識別し,STC Graphを推論することを可能にしている.
パフォーマンスの向上
複数のデータセットを用いて,提案手法が既存の最新の教師なし手法を上回り,最新の教師あり手法と同等であることが実証されている.上図では,Sultani et al. の手法は教師あり学習を用いた手法であり,それと同等のかつ,他の手法を上回っている性能があることが確認できる.