#目的
目的が双方向であるが、
VGG16等のDNNの物体認識の状況確認(説明可能性含む?)と、
逆に、その際に登場するGrad-CAMという手段の妥当性の確認のため、いくつかのサンプルを動作させた。
実行コードは、以下のサイトのものを利用。
https://github.com/eclique/keras-gradcam
普通に車や人の検出が上手なことは確認の必要がないので、
以下の2つの視点で確認した。
(A)認識において、画像の「構成」を意識する必要があるもの。
(B)認識において、「質感」で判断する必要があるもの(形状が定まらないもの)。
(A)として、「湖畔」と「谷」を認識させた。
(B)として、マッシュドポテト(皿とかが映らない状態のもの、つなり、”フル””マッシュドにて。)
# 結果
どれも、すばらしかった。
Model prediction:
lakeside (975) with probability 0.627
promontory (976) with probability 0.048
valley (979) with probability 0.036
seashore (978) with probability 0.036
volcano (980) with probability 0.035
Explanation for 'lakeside'
Model prediction:
valley (979) with probability 0.933
alp (970) with probability 0.023
cliff (972) with probability 0.013
viaduct (888) with probability 0.007
lakeside (975) with probability 0.006
Explanation for 'valley'
Model prediction:
mashed_potato (935) with probability 0.730
ice_cream (928) with probability 0.160
dough (961) with probability 0.065
cauliflower (938) with probability 0.008
meat_loaf (962) with probability 0.006
Explanation for 'mashed_potato'
↓↑ ハケか何かで、ポテトをべたーっとしたところに注目していないあたりは、まだ、甘いと指摘できなくもない(笑)。ただ、ポテトの洞窟のようなところに反応しているのが、凄いと思う。
#まとめ
Grad-CAMが、意外とすばらしい、気がしつつある。
VGG16もすばらしい。
とり急ぎ。
コメントなどあれば、お願いします。
もっと、新しい技術も知りたい。
#関連(本人)