Help us understand the problem. What is going on with this article?

[Survey]CNN Features off-the-shelf: an Astounding Baseline for Recognition

More than 3 years have passed since last update.

この論文は、CNNで抽出されたFeatureを他のタスクに使用した時のPerformanceについて調べた論文です。

CNNは、OverFeat Networkを使用しています。

taskは、下記の通りです。
下記Taskは、OverFeatのOriginal TaskとDataからどんどん離れるようになっています。

  1. image classification
  2. scene recognition
  3. fine grained recognition
  4. attribute detection
  5. image retrieval

範囲を選択_156.png

CNN

CNNはOverFeat Networkを使用している。

2つあるうちのこちらの方を使用。
Architectureはここを参照した。

'accurate' network (table 2 in http://arxiv.org/abs/1312.6229):
input 3x221x221
stage 1: convo: 7×7 stride 2×2; ReLU; maxpool: 3×3 stride 3×3; output (layer 3): 96x36x36
stage 2: convo: 7×7 stride 1×1; ReLU; maxpool: 2×2 stride 2×2; output (layer 6): 256x15x15
stage 3: convo: 3×3 stride 1×1 0-padded; ReLU; output (layer 9) 512x15x15
stage 4: convo: 3×3 stride 1×1 0-padded; ReLU; output (layer 12) 512x15x15
stage 5: convo: 3×3 stride 1×1 0-padded; ReLU; output (layer 15) 1024x15x15
stage 6: convo: 3×3 stride 1×1 0-padded; ReLU; maxpool: 3×3 stride 3×3; output (layer 19) 1024x5x5
stage 7: convo: 5×5 stride 1×1; ReLU; output (layer 21) 4096x1x1
stage 8: full; ReLU; output (layer 23) 4096x1x1
stage 9: full; output (layer 24) 1000x1x1
output stage: softmax; output (layer 25) 1000x1x1

Visual Classification

・Featureは、CNNの最初のfully connected layer(layer 22)の出力を使用
・入力画像は、221x221にresizeかcrop
・Featureはl2 normalizationする
・4096次元のFeatureをSVMの入力とする(CNN-SVM)
・training dataのaugmentationをしたものをCNNaug+SVMとする
・VOC Object Classification, UIUC Object attributesの時は、one against allをそれ以外の時はone again one with votingを使用。
 one against all は、あるClassとそれ以外という判別を行って、一番スコアーが高いものを分類Classとする手法
 one against one votingは、1対1で判別を行って、投票していき最も得票が多かったものを分類Classとする手法

Image Classification

PASCALL VOC Object Classification

・AP(average precision)で評価
・すべてのCategoryで同等かそれ以上の性能が出ている
範囲を選択_157.png

(a)FeatureのLayerを変えた時の性能の変化
・後段の出力ほど性能がよくなっている
・4,8,etcで性能が落ちているのは、ReLUの出力のところ
範囲を選択_158.png

MIT 67 Scene Classification

・CNNは今までの最高レベルと同等の性能が出ている
・いくつかのSceneはbackery-buffet, cinema-auditorium, library-bookstoreは性能が悪いが人間でも難しいシーン
範囲を選択_159.png

Object Detection

自分たちではやらなかったけど、Girshick et al.がすでに行った結果によると、mAPが46.2でこれまでより10%上回っている

Fine grained Recognition

・花の種類とか犬の品種などの、subclassを認識するタスク

CUB 200-2011 Bird dataset

範囲を選択_160.png

Oxford 102 Flowers dataset

範囲を選択_161.png

Attribute Detection

範囲を選択_162.png
範囲を選択_163.png

Visual Instance Retrieval

・query imageに写っているものと同じものが写っているreference imageを探すタスク
・query imageをsub patchに切り出す
・切り出したPatchのCNN representationを求める
・reference imageのsub patchとのL2 distanceを計算し、最小値のpatchを探す
範囲を選択_164.png

最後に

CNNの抽出したFeatureを別のタスクに使用しても性能が出ていることがわかる有意義な知見

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした