[論文概要] Layer CAM

Posted at 2024-07-14

こんにちはぺいぺいです。Layer CAM に関する論文読みをまとめたものです。概要なので、もと論文から情報が省かれていたり、直訳になっていなかったりするため、ご了承ください。

Abstract

2021, IEEE Transactions on Image Processing
著者：Peng-Tao Jiang*, Chang-Bin Zhang*, Qibin Hou, Ming-Ming Cheng, and Yunchao Wei
Deep Learning モデルを理解するためのXAIの手法として、CNNの最終層の特徴マップを可視化するCAMやGrad-CAMといった手法が存在
しかし、CNNは特徴量の空間次元を徐々に縮小していくため、可視化された activation map が「荒く」なる。例えば、画像の馬を分類した際に可視化すると、足などの細かい部分に対してヒートマップがずれたりする
提案手法LayerCAMは、より正確な activation map を作成するための手法

イントロ - Introduction

2020年あたりの activation map の動向

CNNを使用した画像分類問題において、activation map を作成することが提案されている
Activation map とは、モデルの途中過程を可視化したマップ（画像）であり、ヒートマップで表現されることが多い
画像分類問題で activation map を使用することで、弱教師ありセグメンテーションタスクのように扱うことができる。例えば、犬猫分類問題があるとして、CNNの最終層を可視化すると、犬の位置や猫の位置の値が大きくなっており、これらはまるでセグメンテーションの結果のようになっている

Activation mapの問題点

Activation map のコンセプトはCAMで提案されたが、CAMは最終層にGloobal average pooling を備えなければならないという制約を持っていた
その後Grad CAMが提案され、どんなCNNベースの画像分類器に対しても activation map を作成可能になった。Grad CAMは、特徴マップの勾配平均をターゲットクラスの重要度として、activation map を作成する手法である
しかし、Grad CAM では、Activation map を作る元となるCNNの層を最終層にだけ頼っていたため、activation map と入力画像の空間解像度を合わせるためには、activation map を upsampling しなければならず、「荒く」なってしまう。これにより、画像のクラスの情報だけから、セグメンテーションをするなどの、weakly-supervised tasksの性能に限界がある
つまり、もっと解像度の高いactivation map を取得する手法が望まれる。例えば以下の画像は、VGG16のactivation map を畳み込み層ごとに可視化したものである。Conv3_3 のような手前の畳み込み層では、画像の細かい特徴量を取得しているが、Conv5_3 のような出力層付近だと解像度が荒くなってしまう
Grad CAM はグローバルな情報のみを各特徴マップで収集する傾向があり、詳しい位置情報が失われがちであると分析されている。（画像の中央上でピクセル値が高い領域が散らばっていることを指している）

Layer CAMの目的と貢献

Layer cam の目的は、解像度が高い浅い層の出力から、位置情報が荒くない精度の高いactivation map を取得することである。Layer CAM の利点は以下の通り。

Layer CAMは従来手法と異なり、CNNの深い層と浅い層から、荒い位置情報（どこらへんに馬がいるか）と精度の高い詳細（馬の特徴はどんなか）の両方を取得可能
異なる層出身のactivation mapは、相互補完的であることが多い。つまり、これらをうまく混ぜ合わせることができれば、画像ラベルアノテーションのみを持ってしてセグメンテーションを行うweakly-supervised tasks に有用であると考えられる
Layer CAMを使用する際、CNNに特別な変更を施す必要がないので、既存のCNNに適用可能

手法 - Methodology

Revisit Grad-CAM and Grad-CAM++

Grad-CAMとGrad-CAM++のアルゴリズムについておさらい。基本的な文字の定義は以下の通り。

$y^c = f(I, \theta)^C$：分類機$f$, 入力画像$I$, パラメータ$\theta$, クラス$C$に足しするスコア$y^C$
$A_k$：CNNの最後の畳み込み層の$k$番目の出力特徴量マップ

Grad-CAMの基本思想は、以下の通り。

$A_k$を変化させた際に出力 $y^c$が大きくなる場合 → $A_k$は重要な特徴量
$A_k$を変化させた際に出力 $y^c$が小さくもしくは変わらない場合 → $A_k$はどうでも良い特徴量

$A_k$を変化させた時、$y^C$がどのくらい変化するのかを求めるには、特徴マップ$A$の空間座標$i,j$それぞれについて、以下のように勾配を求めたら良い。
$$g_{ij}^{kc} = \frac{\partial y^C}{\partial A_{ij}^k}$$

特徴量$A_k$のクラスCに対する重要度をスカラーで求めたいが、特徴量マップ$A_k$は行列である。これをスカラーにしてあげるために、平均を取って、特徴量$A_k$の重要度すなわち重み$w_k^c$を求める。
$$w_k^c = \frac{1}{N}\sum_i\sum_jg_{ij}^{kc}$$

ここで、$N$は$A_k$の空間サイズ数（ピクセル数）である。これを使用して最終的なクラス$c$のactivation map $M^c$を以下のように重み付き和で求める。
$$M^c = \text{ReLU}(\sum_k w_k^c \cdot A_k)$$

これが、Grad-CAMのアルゴリズムである。
一方でGrad-CAM++は、$w_k^c$の求め方がGrad-CAMと異なる。Grad-CAMでは、勾配を特徴量マップの次元ごとにただ単純平均していたが、この平均の方法を工夫しているのがGrad-CAM++である。Grad-CAM++では、重み$w_k^c$を以下のように求める。
$$w_k^c =
\sum_i\sum_j a_{ij}^{kc} \cdot \text{ReLU}(g_{ij}^{kc})$$

$$a_{ij}^{kc}
= \frac{(g_{ij}^{kc})^2}
{2(g_{ij}^{kc})^2 + \sum_a \sum_b A_{ab}^k(g_{ij}^{kc})^3}$$

$(a,b)$は$A_k$の空間位置を表している。Grad-CAM++の方がオブジェクトの位置を精度よく認識することができる。

これらの手法の共通点 → 最後の畳み込み層の出力とその勾配から計算された重みを使用しているということであるが、この手法だと、activation map の空間解像度が荒すぎる
高解像度のマップを手にいれるにはGrad-CAMやGrad-CAM++を浅い層に適用するというのが自然な考えである → 実際にやってみると、false positive が多すぎるらしい（下図の真ん中に該当）

分析 - analyze

CNNで画像分類を行う際、浅い層では粒度の高いactivation mapが得られ、深い層では、荒いがクラスごとに位置情報をキャプチャしているmapが得られる。また、序盤のマップでは、クラスごとの区別のようなものがない。例えば$A_k^{鳥}$を調べたとしても、下図のconv1_2では、背景も光っている。

Grad-CAM、Grad-CAM++は共に、特徴量マップ$A_k^c$に対してグローバルな重み$w_k^c$を適用する。グローバルな重みというのは、「特徴量マップの座標に依存しない重み」ということである。
クラスごとの区別の概念が薄い浅い層のマップに対してグローバルな重みをかけてしまうと、関係のない背景情報まで強調されてしまう。その結果、False Positive が増えてしまう。

また、数値解析も行なっている。以下のグラフは、横軸が特徴マップのチャネル、縦軸がチャネルごとに計算した勾配の分散を表している。ここで確かめたい命題は、「グローバルな重み$w_k^c$は特徴マップ$A_c^k$の重要度として機能してくれているか」ということである。

上図から以下のことがわかる。

深い層（stage5)：ほとんどのチャネルにおいて分散が0に近い → Grad-CAMで言うところの $w_k^c = \sum_i\sum_j a_{ij}^{kc} \cdot \text{ReLU}(g_{ij}^{kc})$ という重要度の算出方法により、特徴量マップごとの重要度を代表することができている
浅い層（Stage1）：ほとんどのチャネルにおいて分散がバラバラ → 同じチャネル内でも空間位置によって値が大きかったり小さかったりする → Grad-CAMで言うところの $w_k^c = \sum_i\sum_j a_{ij}^{kc} \cdot \text{ReLU}(g_{ij}^{kc})$ という重要度の算出方法では、チャネルごとの重要度を決定することができない

LayerCAM

LayerCAMは上記で解説された「浅い層では、既存手法の重み作成方法では空間位置によって値がバラバラすぎて、重要度としての役割を果たせない問題」を解決するための手法である。
メインアイディアは「Grad-CAMみたいにチャネルごとに重み$w_k^c$を計算するんじゃ荒すぎるからチャネルと空間位置ごとの重み$w_{ij}^{kc}$を丁寧に用意すればいいじゃん」というシンプルなものである。
LayerCAMでは、とある畳み込み層の出力特徴量マップの$k$チャネル目のクラス$c$への空間位置$(i,j)$に対する重みを以下のように計算する。
$$w_{ij}^{kc} = relu(g_{ij}^{kc})$$

$k$チャネル目のactivation mapは上記の重みを使用して以下のように計算される。
$$\hat{A_{ij}^k} = w_{ij}^{kc} \cdot A_{ij}^k$$

これを全てのチャネル分足し合わせれば、activation maps を得ることができる。
$$M^c = \text{ReLU}(\sum_k \hat{A^k})$$

このようにしてactivation mapを計算することによって、浅い層のクラス分類に寄与しない特徴を重みで弱め、逆に寄与する特徴を強調することができる。

実験 - Experiments

本セクションでは、以下の4種の方法でLayer CAMの有効性を検証する。

Weakly-supervised object localization（弱教師あり物体位置推定）
Image occlusion（画像遮断）
Surface defect detection（表面欠陥検出）
Weakly-supervised semantic segmentation（弱教師ありセマンティックセグメンテーション）

Weakly-supervised Object Localization

データセット：ILSVRC、50000枚の画像
評価指標：予測BboxとGroud Truth BboxのIoUが0.5以上かつ予測された上位1つのクラスが正しい場合正解、それ以外の場合は不正解（= loc1）とIoU > 0.5 以上かつ予測された上位5つのクラスの中に正しいものが入っている場合正解、それ以外を不正解（= loc5）
Activation mapからBboxを作る方法：マップの最大強度の上位15%を1、それ以外を0とするマスクを作成し、最も多く連結している領域をピッタリくくる長方形をBboxと定義
VGG16の異なるステージの最終畳み込み層からマップを生成
conv1_2とconv2_2層では、マップの強度が高い位置が散らばりがちだったので、GraphCutという手法で連結したセグメントを作成
異なる層のactivation mapを結合する際、最初の3ステージに関しては、以下の式によってスケールを調整。tanhによって、 -1 から 1 に正規化されるが、もともと$M^c$はReLUの効果で0以上の値しかとらないので、実質 0 から 1 の範囲になる
$$ M^c = \text{tanh}(\frac{\gamma * M^c}{\text{max}(M^c)}) $$

比較をしたところ以下のような結果になった。

全ての層において既存手法を上回っているが、特に浅い層で顕著にその差が見られる。
また、実際に浅い層を可視化してみると以下の画像のようにGrad-CAMやGrad-CAM++はクラスに無関係なノイズも可視化されているが、LayerCAMでは対象オブジェクトのみ強度が上がっていることがわかる。

さらに、複数のステージのactivation maps を組み合わせて1つのマップを作成することも試みた。その場合、浅い層の出力値は小さくなりがちなので、そのような場合は浅い層のマップに下駄を履かせてあげる必要がある。下駄の履かせ方は以下の通り。（再掲）
$$ M^c = \text{tanh}(\frac{\gamma * M^c}{\text{max}(M^c)}) $$

$\gamma$ はスケールファクターであり、実験的に2が良く、tanhが良いらしい。その後、ステージごとのマップの空間位置ごとに比較し、最大値をとる位置とその値を結合後の代表とする。

このように複数の層を使用してマップを作成し、Bboxを作成した結果以下のようになった。

これをみると複数ステージを使用することはただの手間のように感じる。しかし、これは物体検出というタスクそのものが位置推定にそこまで厳しくないタスクであるためである。一方Semantic Segmentationでは、Stageを追加するほど精度が良く向上する現象が確認されている。

Layer CAMを他の手法と比べた結果、精度が向上しているということが主張されている。画像出力例、結果の比較表は以下の通り。

Image occlusion

Image occlusion は、画像の一部を妨害する（画素値を0）にすることで、分類精度にどのような影響が出るかを検証する手法である。複数の手法で生成されたactivation mapの値が高いところを隠して、分類精度がより下がった手法が最も良いactivation mapを作成できていることを意味する。実験条件は以下の通り。

データセット：ILSVRCのうち、VGG16が正しく分類した画像
Occlusion方法：閾値を0.7とし、それ以上の値を持つactivation map位置を調べ、入力画像と対応するピクセルを隠す
元の分類精度から低下していれば低下しているほど、activation mapの精度が良い

結果は以下のようになり、LayerCAMが最も良かった。

Industry Surface Defect Localization

産業用物質の欠陥セグメンテーションにLayerCAMを使用する実験である。さまざまな物質が存在し、またそれぞれの欠陥はとても細かいので、粒度の高い特徴認識ができているかどうかを検証する。これを弱教師あり2値セグメンテーションタスクとして解く。つまり、画像ごとに欠陥あり or なしのラベルしかついていないデータを使用して欠陥部位セグメンテーションを試みる。

データセット：DAGM-2007 defect dataset, (train, test)=(3550, 400), さまざまなテクスチャの表面が存在
Model：ResNet50
学習条件：SGD, 15epochs, batch size 32
比較対象：Semantic Segmentationタスクとして学習しているSegNetとRefineNet、弱教師ありセグメンテーションタスクとして学習しているGrad-CAM、Grad-CAM++
評価指標：mIoU、FPS

結果は以下のようになった。弱教師あり学習の既存手法に勝つのはもちろんのこと、ピクセルレベルでアノテーションされたデータで学習しているSegNetにも勝利している。