17
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

お題は不問!Qiita Engineer Festa 2023で記事投稿!

CNNとViTはテクスチャ重視?形状重視?【認識特性の違い】

Last updated at Posted at 2023-07-01

原論文

日本語解説

関連研究

CNNとViTのノイズへの頑健性の違い
https://qiita.com/wakayama_90b/items/a9b931c8cfff990c542a

CNN+ViTモデルの傾向【サーベイ】
https://qiita.com/wakayama_90b/items/96bf5d32b09cb0041c39

結論

右の画像を見て,人間は猫,ViTは猫,CNNは象と答える.
形状重視だからって性能が向上するわけではない.

mojikyo45_640-2.gif

認識対象を形状で捉えるか?テクスチャで捉えるか?

評価方法

画像認識モデルが画像のテクスチャの情報を捉えているのか,形状の情報を捉えているのかをSIN Datasetを用いて評価する.SIN Datasetとは,上図のように,猫の画像をGenerative Adversarial Network (GAN) を用
いて象のテクスチャに変換したように,シルエットとテクスチャを別にした画像のデータセットである.例えば,モデルが猫と認識した場合は,認識対象の形状を重視する.象と認識した場合は,認識対象のテクスチャを重視する.

ViTとCNNの認識特性の違い

 【Are convolutional neural networks or transformers more like human vision?】
下図のプロットは左にあれば形状重視,左にあればテクスチャ重視である.各色の縦線は平均値を示す.
オレンジや黄色のViTモデルは,CNNベースのモデルと比較して形状重視である.また,赤色で示す人間の認識は極端に形状重視である.(人間はシルエットクイズが得意であることがわかる.逆に,テクスチャ情報のみの超ドアップ画像はよく分からない.)人間の認識に近いモデルはViTである.

mojikyo45_640-2.gif

モデル構造から導く

CNNはモデル構造上,カーネルの範囲で特徴抽出をするため,局所的な認識をする.反対にViTは画像全体を並列に特徴抽出するため,受容野が画像全体で大局的な認識をする.
下図の場合,画像の局所的な認識をすると左:N,右:Eと認識し,画像全体で見ると,左:J,右:Kと認識する.
局所的な認識をするモデルはテクスチャを重視し,大局的な認識をするモデルは形状を重視する.
モデルの構造から,テクスチャか形状の認識かのバイアスが決まる.

mojikyo45_640-2.gif

Datasetから導く

画像認識モデルに入力される学習用画像に,様々な変換(データ拡張)をかけて学習する.画像に色の歪み,ノイズ,ブラーなどのデータ拡張は,テクスチャバイアスを大幅に減少させ,ランダムな切り出しなどのデータ拡張は,テクスチャバイアスを増加させる.ノイズなどは画像のテクスチャ情報を邪魔するするように働く,これにより,ノイズを含んだ画像を学習するモデルはテクスチャバイアスを低下させる.また,画像を切り出すことは大局的な認識を邪魔するように働く,このモデルは大局的な認識ができずに,形状バイアスを低下させる.

SIN Datasetで学習

【Intriguing Properties of Vision Transformers】
データセットによりモデルの認識特性が変化することが分かっている.1番上の右,猫と象の画像で正解ラベルを猫として学習させる.つまり,テクスチャ情報を使用しないで学習する.下図から,SIN Datasetで学習したオレンジと赤は,極端に形状重視の傾向がある.これは,ほぼ人間の認識特性と類似する.

mojikyo45_640-2.gif

また,形状重視なモデルは認識対象の形状をうまく捉えており,認識対象を捉えることができる.これは,セグメンテーションタスクにおいて有効である.

mojikyo45_640-2.gif

CNN分析

【Deep convolutional networks do not classify based on global object shape】
CNNはテクスチャを重視する認識をするため,下図のようなシルエット,アウトライン,ガラス細工,テクスチャ情報変更した画像の認識が困難であることが分かっている.

mojikyo45_640-2.gif

【IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROBUSTNESS】
また,各モデルが全て正解した画像を用いて4つのCNNモデル+人で分析する.オリジナル画像,グレースケール,テクスチャの画像は人と同程度の精度だが,シルエットとエッジ画像は精度低下する.

mojikyo45_640-2.gif

局所的な受容野とSIN Dataset評価

1番上の画像の正解ラベルを猫として学習,評価する.つまり,テクスチャ情報を使用せずに学習する.
最上段のResNet50は,IN(ImageNet),で学習してSINで評価する場合に精度が大きく低下する.また,SINで学習してINで評価しても精度は大きく低下しない.このことから,形状を捉えるような学習をするとImageNetに通用するモデルが完成する.
また,下段にいくと受容野の制限されたCNNモデルを示す.BagNet-33は受容野が($33 \times 33$)である.下段にいくにつれて,SINを使用した評価の精度が 順に低下する.このことから,SINは局所的な認識だけでは精度が低下し,大局的な認識が重要であることが分かる.

68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f3238363639362f38613534633836362d373638642d666564642d346636662d3631353930656537343833302e706e67.png

また,SINで学習したモデルは形状重視を強める.
下図で赤:人,黄色:SIN-ResNet,灰:ResNet.

mojikyo45_640-2.gif

データセットの変更と変化

【The Origins and Prevalence of Texture Bias in Convolutional Neural Networks】
CNNの分析の結果,データ拡張方法を変更した場合に認識特性が変化した.色の歪みやノイズなどは形状バイアスを増加,ランダムクロップはテクスチャバイアスを増加させることが分かった.
下図の左から,ImageNetで優れた精度を発揮するモデルは形状バイアスが強い相関がみられた.しかし,右の図でデータ拡張と形状バイアスの関係を示し,形状バイアスが小さい方が精度向上している.2つの結果は対象的な結果を示し,一概にも形状重視しているモデルが有効だとは限らないことが分かる.

スクリーンショット 2023-07-01 21.20.21.png

まとめ

今回は,CNNとViTの認識特性の違いをテクスチャ重視か形状重視かの面から解説した.「形状重視だからいい」とかではないらしい.認識特性を理解することが大切である.データセットによって最適なモデルを選択できるようになったらいいなと思う.

17
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
17
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?