【深層学習】CNNまとめ（仕組み、ちょっとだけ数式）

Last updated at 2025-01-10Posted at 2025-01-09

こんにちは。画像認識に強みを持つCNN（畳み込みニューラルネットワーク）についてまとめます！

※そもそもの深層学習の仕組みとRNN（再帰型ニューラルネットワーク）についてはこちらの記事でまとめました。良ければご参考くださいm(__)m
【深層学習】RNN、LSTM、GRUまとめ（仕組み、ちょっとだけ数式）

アウトライン

多層パーセプトロン
CNN（畳み込みニューラルネットワーク）
- 畳み込み層
- プーリング層
- パディング
CNNの全体像
参考

1. 多層パーセプトロン

CNN（畳み込みニューラルネットワーク）の中身に入る前に、前提となる多層パーセプトロンについて簡単に触れます。

多層パーセプトロン（MLP: Multi-Layer Perceptron）は全結合層（fully connected layer）を積み上げたモデルで構成されています。

全結合層とは、すべての入力ニューロンと出力ニューロンが接続された層を指します。この構造により、各入力データに対して個別の重みが割り当てられ、全体の特徴を学習できるようになっています。
また、多層パーセプトロンでは非線形活性化関数（例えばReLUやシグモイド関数）が使われており、この活性化関数によって非線形な関係を学習することが可能になります。

例えば、画像分類タスクでよく使われるMNISTデータセット（28×28の手書き数字画像）を処理する際、多層パーセプトロンでは次の手順を踏みます。

画像データを1次元配列に変換
28×28ピクセルの画像データを784次元のベクトルに変換して入力
重みを持つ全結合層を通過
全結合層を複数積み重ね、画像の特徴を学習
出力層で分類
最終的に、10クラス（数字0～9）に分類する確率値を出力

多層パーセプトロンの課題

全結合層では、入力データの位置関係や隣接するピクセルの関連性を考慮するのが難しいことが課題になります。このため、画像のように2次元構造が重要なデータを扱う場合、CNN（畳み込みニューラルネットワーク）の方が適しています。なぜ難しいのかを深掘っていきます！

1. データの構造を破壊する

全結合層に入力するためには、2次元の画像データ（例: 28×28のピクセル行列）を1次元の配列（例: 長さ784のベクトル）に変換する必要があります。
この変換により、隣接するピクセル間の空間的な情報（例えば、上下左右の関係）が失われることになります。

例えば、次のような28×28の画像の中で隣り合ったピクセルが持つ意味は、ベクトルに変換された段階で完全に無視されてしまします。

元の画像
ピクセルAと𝐵が上下に隣接している。
変換後のベクトル
𝐴は配列の先頭、Bは配列の中のどこかに位置し、隣接しているかどうかの情報が失われる。これにより、画像中の局所的な特徴を捉えるのが難しくなる。

2. 位置の変化に弱い

全結合層では、入力データが持つ順序に基づいて重みが設定されるため、少しでも位置がずれた場合に、出力に大きな影響があります。

例えば、「手書きの "0"」の画像が、画像全体で1ピクセルだけ右にずれた場合を考えてみましょう。このずれにより入力ベクトルの要素が変化し、全結合層の計算結果が大きく異なってしまいます。
これは、全結合層が画像のピクセルの絶対位置に依存しているためです。実際の画像認識では、文字や物体の位置は多少ずれても同じカテゴリとして認識されるべきでありますが、全結合層のみではこの柔軟性が実現できません。

3. パラメータ数の爆発

全結合層では、入力データの次元ごとに重みが必要です。例えば、28×28ピクセルの画像を扱う場合、1層あたり784個の入力に対して、次の層の各ニューロンごとに784個の重みが必要です。
このパラメータ数の膨大さは、計算リソースや学習効率の面で大きな問題となります。

余談

ちなみに、CNNのアイデアは、生物の脳、特に視覚野の仕組みから着想を得ています。視覚野には、視覚情報を処理するための神経細胞が存在し、その中でも重要なのが次の2種類の細胞です。

単純型細胞
単純型細胞は、視覚野の中で局所的な特徴を検出する役割を持ちます。例えば、画像の中の縦線や横線、斜め線といった基本的なパターンを見つけられます。
ただし、この細胞には弱点があり、検出した特徴がどの位置にあるかに非常に敏感です。たとえば、縦線を検出しても、その位置が少しでもずれると別の特徴として認識してしまいます。
複雑型細胞
複雑型細胞は、単純型細胞の弱点を補う役割を果たします。この細胞は、特徴の位置が多少ずれても、同じ特徴として認識することができます。
これにより、画像の中で同じ縦線や横線が少し移動しても、一貫して同じ特徴として捉えることができます。

CNNでは、これらの仕組みを模倣しており、単純型細胞に該当するのが畳み込み層、複雑型細胞に該当するのがプーリング層です。
つまり、単純型細胞が局所的な特徴を抽出し、複雑型細胞が移動不変性（特徴の位置に左右されない性質）を付加することで、画像認識の精度を高めています。
これらを今から説明していきます！

2. CNN（畳み込みニューラルネットワーク）

CNNを理解するポイントは、「元の2次元空間の情報を取り込めない」という先ほど挙げた問題に対して、「畳み込み層」を利用していることです。

畳み込み層

畳み込み層は、視覚野の例において単純型細胞に該当します。つまり、局所的な特徴量の抽出を担っています。どのように特徴抽出をするかを見ていきましょう。

フィルター

畳み込み層では、フィルター（カーネルとも言う）を多数用いて、画像（2次元空間の情報を持つ）の特徴抽出を行っています。
ここでは、28×28で784次元のベクトルと持つ手書き文字データを例に考えてみます。

例えば、3×3のフィルターは次のように表されます。

このフィルターは、画像に対して特定の演算を加えることで画像を加工する働きをします。
※ 0と1が書いてありますが、これは、上下方向のエッジ（色の境界のうち上下に走る線）を検出するフィルターを表したかったので、1が縦で並ぶフィルターにしました

次に、このフィルターを画像の左隅に合わせて、画像の値をフィルターの積の和を求め、元の画像の中心に書き込みます。この作業をフィルターをスライドさせながら画像全体に対して行っていきます。これを畳み込み演算と呼びます。
フィルターを適用した結果、エッジが強く出ている領域の数値が高くなっていきます。

なお、今は意図的に縦エッジを認識するフィルターとしましたが、そもそもフィルターに使われる値は重みとしてランダムな値が設定されます。なので、実際には、学習が進むにつれてニューラルネットワーク自身が独自のフィルターを生成することになります。

数式

3×3の畳み込み層を数式で表すとこのようになります。
なお、フィルターのサイズは中心を決めることができるうように奇数の幅であることが必要です。奇数であればよいので3×3だけでなく、5×5や7×7のサイズにすることもできます。

3×3の領域をずらしながら画像全域にわたって出力$Z_{ij}$を計算する層が畳み込み層です。

この時、3×3の畳み込み層の出力の大きさは28×28から縮んで、26×26になります。

通常の畳み込み層では、フィルターを複数用意します。この数をチャンネル数と呼びます。
フィルターとチャンネルの違いが分かりづらいのですが、入力画像のチャンネル数（例えば、RGB画像の3チャンネル）は、各フィルターが学習する特徴の種類（フィルター数）によって拡張されます。各フィルターは1種類の特徴を検出し、その結果として新しいチャンネルを生成します。たとえば、16個のフィルターを適用すると、出力チャンネル数は16になります。

また、畳み込み層の出力を特徴マップと呼びます。画像の内容や形状といった特徴（情報）を抽出したものです。例えば、特徴マップにはエッジや模様、形状といった情報が数値化されて含まれています。

例：

入力サイズ：28×28×3（RGB画像）
フィルター数：16
出力サイズ：26×26×16（フィルターの数と一致）

畳み込みとは

畳み込み演算について説明してきましたが、畳み込みとは結局なんなんでしょうか。
答えとして、畳み込みは内積と言えます。

畳み込みは、同じ位置の数値をかけて足すという操作が中心になります。この行為自体、内積の計算ですね。
内積は類似度なので、似たベクトル同士になると値が大きくなります。
似た位置の色が濃く、似ていない位置の色が薄いということです。
つまり、フィルターを画像と見なしたときに、画像の中でフィルターと似た部分を検出する関数が畳み込み層となります。

パラメータ効率

畳み込み層の強みは特徴抽出だけではありません。第一の強みがそのパラメータ効率です。3×2の畳み込み層では、フィルター9つとバイアス項1つの10パラメータが必要になりますが、これが全領域を動いて使われるので、10個のパラメータの学習のために画像全域の情報を利用することができます。
このようにパラメータ効率が良く、学習を効率的に行うことができます。

プーリング層

CNNでは、性能を引き上げるために様々な手法が考案されていますが、これらの手法の中で最も効果があるとされているのが、畳み込み層や全結合層の間に挿入するプーリング層です。プーリング層の役割は移動不変性の付与であり、先ほどの脳の視覚野においては複雑型細胞にあたります。
いくつかのプーリング層がありますが、代表的なものに最大プーリングというものがあります。

最大プーリングは2×2や3×3などの領域を決め、その領域の最大値を出力とします。これをプールサイズだけずらしながら（ストライドと言う）、同じように最大値を出力していきます。
結果として、出力は元の画像よりも小さいサイズになり情報が失われたことになりますが、1ピクセルぶんだけ右にスライドさせながら適用することで、元の画像からの出力と形が似ます。

役割

まとめると、プーリング層には二つ役割があります。

情報の圧縮
画像の中のあるピクセルがその画像の中にある斜めの線の一部であれば、周囲のピクセルも斜めの線の構成要素である可能性が高いです。このような理由で近接する特徴量は相関が高くなることが分かると思います。
一方で、相関が高い特徴を全部保持すると無駄が生じるので、効率が悪くなってしまします。
ここに2×2の最大プーリング層を適用すると、4つの値の最大値を計算することで相関の高い情報を一つにまとめ、特徴量マップの大きさを4分の1にすることができます。
平行移動に対する頑健性を与える
先ほどの2×2のブロックの最大値を取るため、画像が1ピクセルずれても出力があまり変化しません。その結果、画像の位置が少々ずれても安定した推論結果を与えることができます。