CAM/Grad-CAMによる画像認識モデルの信頼性向上

Last updated at 2024-06-02Posted at 2024-06-02

はじめに

◆この記事で伝えたいこと
画像認識モデルのXAI(説明可能なAI)であるCAM/Grad-CAMの仕組みと実装方法

◆対象読者

機械学習に興味のあるエンジニア
XAIに興味のあるエンジニア

◆この記事のねらい
CAM/Grad-CAMの仕組みおよび実装方法を理解し、画像認識モデルの信頼性評価に活用できるようになること

CAM/Grad-CAM

CAM(Class Activation Mapping)/Grad-CAMは、畳み込みニューラルネットワーク(CNN)による画像識別モデルの説明手法です。

CAM/Grad-CAMは、局所説明の手法でCNNの判断が合理的かどうかの確認に活用できます。

また、Grad-CAMはCAMの欠点である適用できる機械学習モデルのアーキテクチャが制限される点を克服した手法になります。

それでは、CAMとGrad-CAMについて解説していきましょう。

CAMとは

Class Activation Mapping（CAM）は特定の入力画像において、画像のどの部分がモデルの予測に影響が出ているかをマッピングする手法です。

CAMを利用する制限として、適用する画像認識モデルにGlobal Average Pooling層がないと使用できないという点があります。

CAMがどのようにして予測に影響を与えている画像の部分を可視化しているか説明します。

CAMの処理の流れ

CAMは下記の流れでモデルの予測に影響している画像の部分を可視化しています。

学習済モデルに判断根拠を知りたい画像を入力する
学習済モデルから特徴量マップを取得(モデルの最後の畳み込み層など)
Global Average Pooling(GAP)層の出力する値に乗じる重みを取得(画像の$\mathbf{w}_1$, $\mathbf{w}_2$, $\mathbf{w}_n$のとこ)
- $k$番目のチャネルに対するGAP後のスカラー値とクラス$c$をつなぐ重み($w_k^c$)
特徴量マップのチャネルごとに重みを乗じる
特徴量マップに重みを乗じたものを足し合わせる
元の画像サイズに戻すことで、重要度を表すヒートマップが完成

[1]のFigure.2から引用

Grad-CAMとは

CAMの欠点

CAMは適用する画像認識モデルにGlobal Average Pooling層がないと使用できないという欠点があります。この欠点を克服したものがGrad-CAMになります。

CAMの欠点をどのように克服したのか

CAMでは、特徴量マップのチャネルに乗じる重みとして、GAP層の出力に乗じる重みを利用していました。

Grad-CAMでは特徴量マップのチャネルに乗じる重みとして、特徴量マップのチャネルごとの勾配平均を用いています。

これにより、GAP層がなくても重要度を表すヒートマップを作成できるようになりました。

Grad-CAMの欠点

勾配平均を用いるため、勾配消失が起きた時はGrad-CAMは上手く動作しません。
勾配を用いない手法として、Score-CAMがあります。

なぜCAM/Grad-CAMが必要なのか

CAM/Grad-CAMは下記の活用方法があります。

予測の妥当性の検証
意図とは異なる学習の見直し

例えば、狼の画像を分類する時、狼に注目しているのではなく、背景の雪を見て識別していたという事例があります。
このように画像が正しい分類されていても、妥当な識別方法で分類できているとは限りません。

また、上記のような場合、背景が雪ではない狼の画像が訓練データセットに足りなかったということが推測できます。

このような予測の妥当性から意図とは異なる学習が行われたかどうかを検証することができます。