こんにちは。ぺいぺいです。本記事は、RISE: Randomized Input Sampling for Explanation of Black-box Models を参考に作成した。画像処理 XAI の評価指標の Saliency map(顕著性マップ) の評価指標である、Deletion metric, Insertion meric を解説します。
本手法の公式Githubは以下のリンクにあります。
RISEの手法の解説記事はすでにいくつか存在するため、今回は、そこで提案された評価指標に焦点を当てます。
Deletion metrics, Insertion metric の概要
- これらはともにGrad-CAMやRISEなどのニューラルネットワークのSaliency mapによる可視化がどのくらい重要な場所を捉えられているかを評価する指標である
- Deletion metrics は、Saliency mapの値の大きい領域から入力画像を消していき、急激に精度が下がるSaliency map = 良い説明 というように考える指標
- Insertion metrics はSaliency mapの値の大きい領域から情報のない画像(真っ暗やぼやけた画像)に入力画像の領域を追加していき、急激に精度が上がるSaliency map = 良い説明 というように考える手法
背景
論文中(2018年時点)では以下の問題点が指摘されていた。
- XAIの研究が進んできているのにも関わらず、「説明可能性(Explainablity)」を統一して使用されている評価指標が存在しない。以下にSaliency map の例を示す。これは画像が金魚と分類された際のSaliency map である
- Explainability の評価として人間による評価が多く行われている。例えば、Saliency map(ニューラルネットワークが判断をする際に注目している位置を可視化したマップ)を使用し、それを人間がどの程度尤もらしいかを判断する
- しかしこれでは、「どうしてそのような判断をしたのか」について解釈できない。例えば、画像中の車を識別したとしても、ただ車の特徴を捉えたのか、道路に注目して「道路の上にある物体は車である」と捉えたのかは区別できない
- 人間を評価のループから外すことで、モデルの問題に対する独自の見解をより公正かつ客観的に反映することができると主張
Deletion metrics
Deletion metrics のキーアイディアは、「画像中からモデルの出力の根拠となる部分を除くと出力結果が変わる」というものである。Deletion metrics では、画像中の重要と思われる領域をSaliency mapから決定し、重要な順に削除していく。その際、分類されていたクラスの確信度が減少する。その減少が急激なほど、「良い説明」をしていると判断する。
では、「削除する」というのは具体的にどのようにして行うべきなのだろうか? 論文中では3種類提案されている。
- 画素値を 0 もしくは、とある一定の値にする
- 対象領域を blur つまりぼやかす
- 小さなバウンディングボックスで切り抜く
実像では、どのように削除するかは関数の引数として渡せるようになっているが、実際の論文中では、画素値を0にすることで実験を行った。その理由として、「削除」する目的は、モデルを騙すことであり、blur をしたとしても、よく学習したCNNはその周りの情報を参照してクラスを当ててしまうことが多くあるためである。
Deletion metrics を求める具体的な手順は以下の通りである。
- 画像分類器を学習
- GradCAM、RISE などのSaliency mapを得られるアルゴリズムによりSaliency map を取得
- Saliency map の高いピクセルから入力画像の対応するピクセル値を0にしていく。横軸に消去したピクセルの割合、縦軸に監視するクラスのモデルが出力する確信度をとり、曲線を描く
- 曲線と横軸からなる領域の面積(Area Under the Curve)を計算、低ければ低いほど良い
Insertion metrics
Insertion metrics のキーアイディアは、Deletion metrics の逆で、「情報量が少ない画像に対して出力の根拠となる部分を挿入すると出力結果が変わると」と言うものである。Saliency map の値が高い順に情報量が少ない画像に対して、領域を追加していく。その際、分類されていたクラスの確信度が増加する。増加が急激なほど「良い説明」をしていると判断する。
重要な領域を挿入していくとしても、どのような画像をスタートラインとし、どのように挿入していくかいくつかの手法が考えられる。スタートの画像と挿入の方法のペアとして以下の2つが考えられる。
- 真っ黒な画像にSaliency map の高い領域と対応する画像の領域をただ追加していく
- ぼやかした画像に対して、Saliency map の高い領域と対応する画像の領域から順に、blur を解除していく
論文中では、ぼやかした画像をスタートとし、blur を解いていく方法が推奨されている。真っ黒な画像からスタートしてしまうと、追加の仕方によっては、人間でさえ本当の物体とは全く違うものに分類してしまう可能性があり、確信度の出力がバラバラになってしまう可能性があるためである。例えば、バースデーケーキのいちごの部分から表示された際にいちごクラスに分類されてしまうなどの例が考えられる。
適用例
論文中で示されている適用の例は以下の通りである。
また、論文中では、これらの指標を使用して、提案手法RISEが従来手法のLIMEやGrad-CAMと比較して優れているということを主張している。


