More than 5 years have passed since last update.

Convolutional Neural Networkについて直感的に理解する

Last updated at 2018-01-24Posted at 2018-01-23

現在私は深層学習を勉強していて、CNN(Convolutional Neural Network)について学んだことをアウトプットするために今回Qiitaに投稿することにしました。

CNN（Convolutional Neural Network）とはなんなのか

Convolutional Neural Network(畳み込みニューラルネットワーク)

では実際に受容野のモデルを見てみましょう

視覚系における受容野モデル

ここで図中のS層C層は以下の役割をしています

|S層 (単純細胞層 – simple cell)|図形の特徴を抽出|
|:--:|:--:|:--:|
|C層 (複雑細胞層 – complex cell)|位置ズレを吸収する|

上の図は何をしているかというと、
__入力された情報はS層とC層が交互に結合する構造により、『S層による特徴抽出』と『C層による位置ずれの許容』を繰り返しながら上位の各層に伝搬される様子__を表しています

CNNでは『S層』を『畳み込み層』として、『C層』を『プーリング層』として実装しているため__CNNは画像認識に適している__と言われているのです

	視覚系における受容野	Convolutional Neural Network
図形の特徴を抽出	S層 (単純細胞層–simplecell)	畳み込み層
位置ズレを吸収する	C層 (複雑細胞層–complexcell)	プーリング層

では次にConvolutional Neural Networkにおける畳み込み層とプーリング層について見ていきましょう

CNNは入力のあらゆる位置で特徴の比較と一致点の検出を試み、
画像全体にわたって特徴の一致件数を計算し特徴マップを作成します。
この時に実行する演算が__畳込み__といい、__畳み込みニューラルネットワーク__の名称の元となっています。

両方のピクセルが白(値が1)なら1×1=1、両方が黒なら(-1)×(-1)=1となり、
ピクセルが一致する場合の計算結果は全て1で、一致しない場合は全て-1となります

文字だけではわかりづらいので、実際に計算してみましょう

まず入力画像・フィルター・特徴マップを用意します。

入力画像をフィルターを使って畳み込み、特徴マップを埋めていくことが目標となります。

最初に入力画像の一部の赤枠で囲まれた部分をフィルターを使って畳み込んでみます

計算前

計算後

入力の一部の画像ピクセルとフィルターのピクセルを、左上から対応するピクセルごとに掛け合わせていき、足し合わせ、

-1×1 = -1
-1×-1 = 1
-1×-1 = 1
-1×-1 = 1
1×1 = 1
-1×-1 = 1
-1×-1 = 1
-1×-1 = 1
1×1 = 1

(-1) + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 = 7

画像のピクセル数（今回は9）で割り、結果を特徴マップに書き込みます

7 ÷ 9 = 0.77

フィルターを徐々にスライドさせていき、同様に特徴マップに書き込んでいきます

特徴マップを埋め終わったら畳み込みは終了です

結果として出力される画像枚数は同じだが、それぞれのピクセル数が減少し、
計算の負荷を管理するのにとても便利です

以上となります。
不適切な点や、誤りがありましたらご指摘いただけると幸いです。