LoginSignup
6
7

More than 5 years have passed since last update.

[Survey]Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks

Posted at

MS COCO Detection Challenge 2015 で3位かつ、Best Student Entryだった論文です。

範囲を選択_100.png

単純にいうと、ROIの内側の情報だけでは、うまくいかないので外側の情報も使おうというもので、その時に外側の情報をどうやって取り込むのかあります。彼らがやったのは、Contextual Informationという周辺情報のFeature Mapをspatial RNNから作って認識に使うことです。

Architecture

Inside-Outside Net(ION)

下図はIONの全体イメージです。

範囲を選択_081.png

ネットワークは、Convolutional Layerがconv1, conv2, conv3 ... とあって、そこから2つのspatial RNNが来て、最終的にcontext featuresにつながっています。得られた各LayerのFeatureを結合(Skip layer connection)して、Object Detectionを行うという流れになっています。

Pooling from multiple layers(Skip layer connection)

Fast R-CNN, Faster R_CNN, SPPnetは、最後のConvolutional Layerから全部Poolingしています。
範囲を選択_082.png

これをIONではMultiple Layerに拡張しました。各Convolutional LayerごとにPooling Layerを用意し、その出力を結合し、1x1 Convolutionで次元を削減しています。
範囲を選択_084.png

この時に各Layerの出力の強度がことなるので、各LayerごとにL2 normalizeし、さらにrescalingしています。

範囲を選択_085.png

Context features with IRNNs(spatial RNN)

RNNを使う目的は、ROIの外側のデータを使って物体検出したいということです。その時に、自分の近くにあるデータを時系列のデータとみたててRNNに突っ込んでいます。RNNは、もともとHidden LayerFeedback Loopになっているネットワークのことです。
RNNには、以下のような種類があり、今回はmany to manyのPatternを使っています。

範囲を選択_086.png

データを時系列データとみたてる場合に、どの順番で入力するかというのが問題になりますが、ここでは水平方向x2、と垂直方向x2の4方向からデータを入力しています。

RNNの説明
範囲を選択_088.png

4方向の説明
範囲を選択_089.png

Results

以下結果です。

Dataset: PASCAL, VOC2007, VOC2012, MS COCO

PASCAL VOC 2007

範囲を選択_090.png

IONのmAPの結果は、76.5%で、構造に少し手を入れると79.2%を達成した。

PASCAL VOC2012

範囲を選択_091.png

Datasetが少しむずかしくなっているので、mAPは、76.4%

MS COCO

範囲を選択_092.png

APとARは、7.0%, 10.7%

Design evaluation

Poolingに関する性能評価

範囲を選択_094.png

Conv3からConv5が一番良い

Scalingに関する評価

範囲を選択_095.png
rescalingのscaleを固定の時の学習で決める時の比較
どちらも同じくらいの性能

RNNの性能評価

RNNを使った時と使わなかった時の比較

比較対象は下の通り
範囲を選択_099.png

範囲を選択_096.png
2x stacked 4-dir IRNNが一番性能が良かった

IRRNの個数による比較
範囲を選択_097.png

RNNのHidden Unit数による比較
範囲を選択_098.png

6
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
7