Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
Help us understand the problem. What is going on with this article?

論文紹介: ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness

More than 1 year has passed since last update.

ICLR2019をよむアドベントカレンダー Advent Calendar 2018 に空きがあったので, 既に期日は過ぎていますが, 埋めることにしました.

リンク

TL;DR

  • ImageNet で学習したモデルは人間と違い, 物体形状よりもテクスチャを重視していることをスタイル転移を用いた実験で示した
  • ImageNet の画像をスタイル変換したものを学習に用いると, 物体形状を重視するように学習される
  • 形状を重視するように学習すると, 物体検出の性能向上に繋がり, 画像歪みに対するロバスト性も増す

CNN と人の識別の手がかりの違い

1811.12231_Fig01.png

上の 3 枚の画像それぞれを見たとき, 何の画像と思うだろうか.

  • 左:「ゾウの皮膚? 岩?」
  • 真ん中:「(どう見ても) ネコ」
  • 右:「(テクスチャは変だけど) ネコ」

などと思う人が多いのではないかと思う. (少なくとも自分はそう思った)
一方で, ImageNet で学習した ResNet-50 に一番右の画像を識別させると 63.9% という比較的高い確信度で「ゾウ」と答える.

この一番右の画像は, ネコ画像にゾウのテクスチャをスタイル転移した画像だが, 人と CNN で識別結果が異なる理由として, 人は形状を重視し, CNN はテクスチャを重視しているという可能性が考えられる.
この論文ではまずその辺りについて調べている.

テクスチャのない画像の識別

この論文では, 下図のような 5 パターンの画像について CNN と人の識別精度の違いを見ている. (データセットは 16 クラスからなり, クラスごとにオリジナル画像 10 枚, テクスチャ画像 3 枚で構成される. データセットを用意する際に, オリジナル画像とテクスチャ画像は 4 つの CNN 全てが正解した画像のみを採用している)

1811.12231_Fig02.png

この結果を見ると, オリジナル画像, グレースケール画像, テクスチャ画像では人も CNN もほぼ全て正解し同程度の性能になっているが, シルエット画像, エッジ画像では CNN の識別精度が人に比べて著しく低下していることが分かる.
つまり, 人間は形状情報のみでテクスチャ情報のほぼない画像でもそれなりの精度で識別できるが, ImageNet で学習した CNN はそのような画像を苦手とするということである.

スタイル転移した画像の識別

次に, 冒頭の「ネコの形状+ゾウのテクスチャ」画像と同様に, オリジナル画像に別のクラスのテクスチャ画像をスタイル転移し, 形状とテクスチャのクラスが一致しないデータセットを作成している. (このデータセットはクラスあたり 80 枚の画像からなる)

これを CNN と人に識別させ, 形状とテクスチャのどちらを重視した結果を返したかを表したのが下図である. (人間: 赤丸, AlexNet: 菱形, VGG-16: 三角形, GoogLeNet: 青丸, ResNet-50: 四角形)

1811.12231_Fig04.png

これを見ると, 人は非常に高い比率で形状重視で識別し, CNN はテクスチャ重視で識別していることが分かる.
なお, この実験では, 人間の回答が形状とテクスチャに関して中立になるように, 被験者に対し,

“click on the object category that you see in the presented image; guess if unsure. There is no right or wrong answer, we are interested in your subjective impression”.

と指示したとのことである.

スタイル転移した画像での学習

ImageNet で学習した CNN がテクスチャを重視して識別していることが分かったが, その理由として, 「ImageNet の識別タスクは実は局所的なテクスチャ情報だけで充分正解でき, 敢えて大域的な形状特徴まで学習する必要がないから」というものが考えられる.

このことを確かめるために論文では ImageNet にスタイル転移を施した Stylized-ImageNet (SIN) というデータセットを作成している (下図). なお, スタイル転移の手法としては AdaIN1 を用い, スタイル画像は Kaggle の Painter by Numbers というデータセットを用いている.

1811.12231_Fig03.png

そして, この SIN データセットで学習し, ImageNet (IN), 及び SIN で評価した場合の性能や, IN で学習し IN/SIN で評価した場合の性能を比較している.
その結果が下表の 1 行目で, IN で学習して SIN で評価すると性能は著しく低下するが, SIN で学習した場合は IN, SIN のいずれで評価してもそれなりに高い性能が出ていることが分かる.
つまり, テクスチャ情報に意味のない SIN データセットを用いて学習すれば, 形状情報を重視するように学習され, かつそれは元の ImageNet でも有効な特徴であるということが分かる.

1811.12231_Table01.png

また, 上表の残りの 3 行は ResNet の受容野を (33x33 などに) 制限した BagNet2 による実験結果である. これを見ると, 受容野を制限しても IN で学習評価した場合の性能低下は限定的であり, ImageNet は局所的なテクスチャ情報だけでも識別できることが分かる. 一方で, SIN で学習評価した場合は受容野を小さくするにつれ著しく性能低下しており, SIN では局所的な情報だけでは不充分で大域的な形状情報が重要な特徴となっていることが分かる.

そして, SIN で学習すると実際に形状を重視するようになったことを示すのが下図である. (人間: 赤丸, SIN で学習した ResNet-50: 黄色四角, IN で学習した ResNet-50: グレー四角)

1811.12231_Fig05.png

SIN での学習の data augmentation としての効果

1811.12231_Table02.png

上表では ResNet-50 の学習時に SIN を IN に混ぜて学習し, 最後に IN で fine-tune する場合を Shape-ResNet と呼び, 比較実験している. これを見ると, IN のみで通常通り学習した場合よりも IN での top-1/5 accuracy で良い性能になっていることが分かる.
また, 一番右の列には Pascal VOC 2007 に転移学習した場合の mAP が掲載されているが, 通常通り IN で学習した ResNet から転移学習した場合よりも大幅に性能が向上していることが見て取れる. このことは検出タスクで形状情報の方がテクスチャ情報より有益そうという直観にも符合する.

画像歪みに対する頑健性

1811.12231_Fig08.png

SIN を学習に用いた場合の画像歪みに対する頑健性を見るために, 上図の右 4 列のパターンの歪みに対して評価をした結果が下表である.

1811.12231_Fig06.png

これを見ると, SIN で学習することで low-pass フィルタを除き, IN で学習した場合より頑健になり, 人間に近い性能になっていることが分かる.
low-pass フィルタをかけた場合の性能については, SIN ではエッジ情報が重要になっており, 画像がぼやける low-pass フィルタでは性能低下したと考えられる.

まとめ

  • ImageNet は大域形状情報まで学習しなくても局所的なテクスチャ情報だけで高い性能を出せるため, 通常通り学習した CNN は形状情報よりテクスチャ情報を重視するようになる
  • ImageNet にスタイル変換を適用した Stylized-ImageNet データセットで学習することで, 形状情報を重視させることができる
  • ImageNet と Stylized-ImageNet を合わせて学習し ImageNet で fine-tune することで ImageNet での性能が向上し, かつ, 検出タスクへの転移学習でも性能が向上する
  • Stylized-ImageNet で学習すると, ぼやけ以外の各種の画像歪みに対して頑健になる

  1. Xun Huang and Serge J Belongie. Arbitrary style transfer in real-time with adaptive instance nor- malization. In ICCV, pp. 1510–1519, 2017. 

  2. Anonymous. Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet. Submitted to ICLR 2019, 2018. https://openreview.net/forum?id=SkfMWhAqYQ 

f0o0o
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away