AlexNet, ResNet, EfficientNetについて
-
AlexNet
- 古典的な画像認識アプローチであるSIFT + Fisher Vector + SVMに大差をつけてILSVRC2012で優勝した、ディープラーニングの火付け役となったモデルとなります。
- 構造がシンプルなため、他のネットワークのベースとして使用されることも多いモデル
- 畳み込み層が5層で、そのうちのいくつかにはMaxPooling層がある
- 出力層にはソフトマックス関数を持つ全結合層3層が使用されており、合計で8層により構成されている
- ReLU関数・Dropout・データ拡張を採用し、精度向上している
-
ResNet
- ILSVRC2015の優勝モデルで152層で構成されるCNN
- 勾配消失問題や劣化問題によって学習が進まない問題を、Residual blockという手法を使って解決し、152層という非常に深い層を実現した表現力の高いネットワーク
-
大きな特徴としては、Residual Block(Shortcut Connectionを利用した残差ブロック)・Batch Normalization(バッチ正規化)が挙げられる。
- Shortcut Connection
通常、入力xに対しての畳み込みを行って出力される関数H(x)を学習していくが、層が深いと差がなくなってくる。
この入力との差を、残差関数:Fx = Hx − xと 置き、このFx を学習対象とする考え方
劣化問題 (勾配消失問題は起こっていないにも関わらず、層を深くした際に精度が劣化してしまう問題)を改善するための手法 - Residual block
Shortcut connectionを使用し、層の入力を参照した残差関数を学習することで深いネッ トワークの学習を進みやすくする手法 - Shortcut Connection
-
EfficientNet
2019年5月にGoogle Brainから発表されたモデルで、従来よりかなり少ないパラメータ数で高い精度を叩き出したState-of-The-Artなモデルである。
モデルの「深さ」と「広さ」と「解像度(=入力画像の大きさ)」の3つをバランスよく調整している。
ConvNetsにおけるネットワークの深さや広さ、解像度などがモデルの性能にどう影響を及ぼすかを調べ、Compound Coefficient(複合係数) というものを導入することで性能を上げたところ、ImageNetを含む5つのデータセットで最高レベルを叩き出した
モデルが複雑ではなく、転移学習にも最適である