More than 3 years have passed since last update.

動画像異常検知サーベイまとめ(CVPR,AAAI等)

Last updated at 2020-10-17Posted at 2020-08-10

概要

皆様，いかがお過ごしでしょうか．
梅雨も明けて，どんよりした気分もすこし晴れやかになってきた気がします(笑)
依然としてコロナウイルスによる影響は続いていますね，皆様ご自愛ください．

さて，今回は2018~ぐらいの最近の動画像異常検知に関連する論文をサーベイしましたので，いくつかピックアップしたものを簡単に紹介したいと思います．サーベイのフォーマットは落合陽一先生のものを踏襲しております．当記事で取り上げていないものは，こちらでまとめていますので，興味がおありの場合はぜひご覧ください．

ご指摘・疑問などございましたらコメントなどよろしくお願いいたします．

【CVPR2020】Self-trained Deep Ordinal Regression for End-to-End Video Anomaly Detection

[URL] https://arxiv.org/abs/2003.06780
[Authors] Guansong Pang, Cheng Yan, Chunhua Shen, Anton van den Hengel, Xiao Bai
[Conference] CVPR2020

1. どんなもの？

論文の最大の特徴は自己学習であり，異常検知におけるもっとも主流な既存手法（教師なしアプローチ）では入力に対しての出力の対応は直接学習はできないものの，これを疑似ラベルに対する弱教師付き学習で解決しようと試みた．

2. 先行研究と比べてどこがすごい？

既存の異常検知のアプローチから大きく異なる．最近注目されている弱教師付き学習をメインに用いた希少な手法．
異常検知を行う際には，先行研究ではかなりヒューリスティックな設計に依存していたが，end-to-endでの異常検知を実現している．

3. 技術や手法のキモはどこ

特徴抽出器は学習済みのresnetを用いる．疑似ラベルは一般的な教師なし異常検知の枠組みで付与する．順序回帰モデルによる自己学習が行われる．

4. どうやって有効だと検証した？

UCSDped1,2,UMN,Subwayでframe-levelのAUROCで検証．一定の有効性を確認．SoTAとはいいがたいが，手法面での斬新さからCVPRに採択されていると思われる．

5. 議論はある？

枠組みの斬新さがあるが，それに対してAUROCでの評価値では既存手法に対する有効性は確認できていない．しかし，今後end-to-endでのanomaly detectionが発展する可能性を示すには十分であると思われる．今後さらなる発展を期待したい．

【ICCV2019】Anomaly Detection in Video Sequence With Appearance-Motion Correspondence

[URL] https://arxiv.org/abs/1908.06351
[Authors] Trong Nguyen Nguyen, Jean Meunier
[Conference] ICCV2019

1. どんなもの？

pix2pixを使った動画像異常検知．
動画像異常検知はそのアプローチで2つに大別できる．Naiveにモデル化するSTN系統の研究と，生画像のほかoptical-flow画像をも活用するAppearanceとMotion特徴に分けてモデル化する二つ．
この手法は後者．入力（生画像）に対するencoder-decoderと，pix2pixモデルの二つがある．
様々な部分的な新しい手法（U-net,stride,leakyrelu,輝度損失,GAN(pix2pix)等）をつかって異常検知をしている．

2. 先行研究と比べてどこがすごい？

異常のframe-level検知性能が向上．細部に工夫を施すことで，異常検知性能を向上させている．

3. 技術や手法のキモはどこ

全部にポイントがある．このシステムは主に2つのフェーズに分かれる．学習フェーズと推論デーズである．前者のフェーズの工夫は，1.で挙げた工夫のほかInception moduleなども活用している．
後者では異常検出時にパッチ処理をすることで局所異常検知性能にも貢献すると考えられる．

4. どうやって有効だと検証した？

AUROCでUCSDped2，Avenueを用いて検証．frame-level検知でどちらのデータにおいてもSoTA.

5. 議論はある？

個人的にはAUROCの検証においてSoTAかはすこし疑問．(Avenue)
また，最近の動画像異常検知においては，frame-level検知ではなくpixel-level検知の方が注目されていると思われ，pixel-levelでの検証をしてほしかった．しかし最近注目の手法を多用しており，様々なデータで成果が上がっているので，システムの汎用性という面での評価は高い．

【CVPR2019】Object-Centric Auto-Encoders and Dummy Anomalies for Abnormal Event Detection in Video

[URL] https://arxiv.org/abs/1812.04960
[Authors] Radu Tudor Ionescu, Fahad Shahbaz Khan, Mariana-Iuliana Georgescu, Ling Shao
[Conference] CVPR2019

1. どんなもの？

SSDを用いて人物矩形領域を抽出し，その特徴をもとにクラスタリングし，さらにSVMを学習することでクラス分類スコアを算出し異常検知を行う．
Avenueに対するAUROCによる評価で0.904を超える驚異的な成果．

2. 先行研究と比べてどこがすごい？

結果のすごさを言うと，AUROCの値が尋常ではない．
手法としてはわりとオーソドックスである（外観・Motion特徴に分ける，Autoencoderを用いるなど）が，
SSDを用いて人物の領域を抽出するアイデアは異常検知としてはまれで，独自性といえる．

3. 技術や手法のキモはどこ

異常事象の検出を外れ値検出の問題ではなく，マルチクラス分類の問題として定式化することで対処している．
具体的には，訓練データには正常な事象しか含まれていないので，k-meansクラスタリングを適用し，様々なタイプの正常性を表すクラスタを見つけている．

4. どうやって有効だと検証した？

UCSDPed2,Avenue,Shanghai-Tech,UMNに対してAUROCによるframe-level異常検知でSoTA.

5. 議論はある？

個人的には既存の公開データセットの問題設定ならSSDで人物を抽出する考えはよいと思うが，実環境・社会への応用を考えるときに，様々な物体，移動体，など存在すると思うので人物領域に限定してしまうのはすこし強い仮定だと考える．
また，UCSDPed1での検証がないのは，この手法が適用できなかったことを示唆している．
しかし，AUROCにおいて驚異的な成果が上がっており，まぎれもなくframe-level検知において最先端の成果といえる．

【CVPR2018】Future Frame Prediction for Anomaly Detection – A New Baseline

[URL] https://arxiv.org/abs/1712.09867
[Authors] Wen Liu, Weixin Luo, Dongze Lian, Shenghua Gao
[Conference] CVPR2018

1. どんなもの？

pix2pixを動画像の予測タスクに応用し，appearanceとmotion（Flow-net）特徴を融合する新たな異常検知手法を提案．
４つの異常検知データセットにおいてSoTAを達成し，その汎用性の高さと有効性を確認した．

2. 先行研究と比べてどこがすごい？

既存の異常検知の枠組みの多くは再構成結果をもとに異常検知しているが，本手法ではその期待値との比較によりframe単位での異常検知を可能とする．これは，正常な事象は予測可能であり，異常な事象は予測不可能であるという異常検知の概念に合致している．

3. 技術や手法のキモはどこ

frame予測をpix2pixベースで行う．具体的には現在のframe tまでの部分時系列を作成し，Generatorへの入力とする．GeneratorはU-netである．出力はframe t+1の予測結果となり，これの再構成誤差を採用化するようにモデルが最適化される．この誤差はappearance特徴の異常度として出力．
予測結果と実際のframe t+1はそれぞれflow-netによりframe t間のオプティカルフローが推定され，それぞれの差をmotion特徴の異常度として出力．

4. どうやって有効だと検証した？

UCSDped1,2,Avenue,Shang-hai Techデータセットに対するframe-levelのAUROC評価でSoTA．

5. 議論はある？

個人的にはpix2pixを予測タスクへと応用する試みに面白み．（RNN等を用いない）また，多くの手法が（盲目的に）取り入れている再構成結果で異常検知することへの疑問は考えさせられた．
一方でpixel-levelでの検知は検証されていないなど，異常の局所化については今後の展望である．

【AAAI2019】Robust Anomaly Detection in Videos Using Multilevel Representations

[URL] https://www.aaai.org/ojs/index.php/AAAI/article/view/4456
[Authors] Hung Vu, Tu Dinh Nguyen, Trung Le, Wei Luo, Dinh Phung
[Conference] AAAI2019

1. どんなもの？

DAEとpix2pixを用いてAppearanceとMotion特徴を学習し，動画像異常検知するMultiLevel
Anomaly Detector (MLAD)を提案．既存手法と比較して局所的な異常検知性能を大幅に改善した．

2. 先行研究と比べてどこがすごい？

従来手法は画像の低レベル特徴から異常検知に活用していたが，視覚的なノイズなどに敏感になってしまうとして，高レベル特徴を用いて抽象表現から検証すべきとして，DNNの中間層を異常検知へと活用している新たな試みである．

3. 技術や手法のキモはどこ

MLADは２つのモデルからなり，１つはDAE，2つはpix2pix．DAEの中間表現をもちいて，pix2pixはフロー画像へとドメイン変換されるように学習される．局所的な異常を検出する為に最終的な異常マップ出力の際には閾値処理，正規化，論理積，重みづけなどの処理がなされる．

4. どうやって有効だと検証した？

frame-level,pixel-level，dual-level,のAUROCで評価．UCSDped1,2,Avenueデータセットにおいてpixel,dual-levelでSoTA．

5. 議論はある？

個人的に高レベル特徴を異常検知に活用するアイデアに共感．局所異常性能の向上が見込まれる上，実際にAUROC評価においても性能を発揮している．しかしframe-levelでのAUROCはふるわず，といった印象．

まとめ

今回は，最近の動画像異常検知論文をサーベイしてまとめました．最近の流れをまとめると以下のようになると思います．

frame-levelの異常検知のみならずpixel-levelで異常の領域を特定できるかがポイントになっている．そのため，オプティカルフローなどを活用してあらかじめ特定の物体領域に着目できるようにしている．
直近となると最近の潮流である自己学習系（弱教師など）との組み合わせが登場している．上記のように泥臭く異常領域を探す研究も重要だが，昨今のブームとうまく組み合わせないとトップカンファレンスに通すのは難しいか．

とくに教師なし，弱教師といった手法は今後さらに研究が発展しそうですし，これらと親和性がある意味高い「異常検知」は大きく前進するチャンスを秘めていると思います．

さらに詳しく調査されたい方はわたしのGithubにその他さまざまなサーベイを掲載しておりますのでぜひご覧ください．

最後までご覧いただきありがとうございました．

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up