1. 概要
現在のディープラーニングを用いたCNNs(Convolutional Neural Networks)系の物体認識モデルは、テクスチャ成分に強くバイアスを受ける一方で、人間の視覚システムは物体の形状と構造にバイアスを受けるという違いがあるという点に焦点を当てた論文。”Sparce Coding”という、生物の視覚システムなどで観察される情報符号化の表現方法があり、非常に少数の要素だけが非ゼロであるような表現となっているが、この研究では脳神経科学で用いられる”Sparce Coding”を用いることで、ニューラルネットワークに形状バイアスを導入する方法を提案している。これにより、物体を部分空間やサブパーツに分割して、生物的な認知に近い形状バイアスを含められるようにした。
*Oral Paper
2. 新規性
”Sparce Coding”を利用して、ニューラルネットワークに形状バイアスを導入した。この手法によって、CNNs内のニューロンが構造的な符号化を学習し、形状に対するバイアスを獲得できるようにした。従来のCNNsはテクスチャ成分に強いバイアスを受けるため、画像の例のように人の目では猫が見えていてもテクスチャ成分に引っ張られて象と認識してしまう。
3. 実現方法
提案手法では、CNNsのブロック内で非微分可能なTop-K演算を用いて、”Sparce Coding”(疎な符号化制約)を強制的に制約条件とさせる。Top-K演算では、上位K個のニューロンだけを発火させ、それ以外を抑制する。この制約を導入することで、CNNsのニューロンが経常的な情報をエンコードできるようになる。これにより、物体の形状や構造が滑らかに分解され、形状バイアスが後段ネットワークに伝播する。
画像のように2つのアプローチを導入しており、左図ではTop-K演算をニューロンの発火部分だけに導入してモデルの形状バイアスに影響を与えている。右図では、多段にTop-K演算を導入しUNetのようにダウンサンプリングとアップサンプリングをしたときに、同じ解像度を持つレイヤーでロスを取り、強力に形状バイアスをかけている。
4. 結果
物体認識用のCNNsに提案手法を挿入したところ、テクスチャへの依存度が減り形状へのバイアスが高まっていることが分かった。
敵対的生成ネットワーク(GANs)に組み込んだところ、形状バイアスの導入によって生成された画像がより分解可能なパーツごとに再構成される傾向がみられ、画像の結合がより自然になっていた。
Paper URL: https://openreview.net/pdf?id=QzcZb3fWmW
last updates: Dec 25 2023