初めに
※まだ書き途中です
最新のCNNであるDiCENet(Dimension-wise Convolutions for Efficient Networks)を読みました。メモ書きっぽく残しておくので参考文献などは後から付け足していきます。また、このモデルは査読が終わっていないものです。
元論文: DiCENet: Dimension-wise Convolutions for Efficient Networks
##環境
- OS: Linux18.04
- 言語: Python
- フレームワーク: Pytorch 1.1.0
背景
DiCENetは2つのモジュール、「DimConv (Dimention-wise Convolution)」と「Efuse (Efficient Channel Fusion)」から成っています。結果としてDiCENetは、クラス分類、セマンティック・セグメンテーション、物体検出などの分野で、FLOPsは他の最新のモデルよりも低いモデルみたいです。
他のモデルと比較すると、FLOPsが同じ場合、DiCENetが最も良い精度となっており、精度が同じ場合、FLOPsが最も小さいのはDiCENetとなっています。
しかし、性能はMobileNetv2やShuffleNetv2などと比べたら勝つものの、ResNeXtなど、FLOPsが莫大で精度の良いモデルと比較すると低いみたいです。
横軸のFLOPsが対数なのに注意してください。ResNeXtが莫大な計算量なのがわかります。
ResNeXtは計算量ガン無視で精度を求めるモデルですが、近年では限られたリソースでも実行できるように冗長な演算、パラメータを減らす傾向にあります。上のグラフのMobileNetv1、ShuffleNetv1、MobileNetv2、ShuffleNetv2やDiCENetもその類のモデルかと思われます。
Standard Conv → Depth-wise Conv + Point-wise Conv → DimConv + EFuseの順で説明していきます。
※間違えて解釈している可能性もあります。お気づきになられましたら、ぜひご指摘ください。
#従来の畳み込み
- Standard Conv
- Depth-wise Conv+Point-wise Conv
- Depth-wise Conv+Point-wise Convの問題点
Standard Conv(普通の畳み込み)の処理
-
入力チャネル3、出力チャネル16の例
Standard Convでは入力と同じチャネル数のフィルターを出力チャネルの数だけ準備します。この例だと3枚で1組のフィルターを16組準備して、入力画像を1組(3枚)のフィルターで畳み込んで、1枚の特徴マップを出力します。
DiCENetの論文に記されている図っぽく書くと以下のようになります。
##Depth-wise Conv + Point-wise Conv
続いてDepth-wise ConvとPoint-wise Convの説明に入ります。
Depth-wise Convolution(チャネル別畳み込み)
Xception[^1]というモデルでより計算量の少ないDepth-wise Convolutionという畳み込み手法が提案されました。この畳み込み処理ではフィルターを入力チャネル数と同じ枚数だけ準備し、1枚の入力に1枚のフィルターを畳み込んで、1枚の出力チャネルを出力します。従来の畳み込みと比べて計算量が減っているのがわかると思います。従来の畳み込み処理では1枚の出力特徴マップに入力の全チャネルの情報が集約されていますが、Depth-wise Convolutionでは1枚の出力特徴マップには1つのチャネルの情報しか入っていません。これがDepth-wise(深さごと)という名前の由来です(深さとチャネルは同じ意味)。しかし、これだけだとチャネル間が独立しているため、チャネル間の依存関係を考慮できません。そこでこのDepth-wise ConvolutionにPoint-wise Convolutionを組み合わせることでチャネル間の依存関係を考慮します。
Point-wise Convolution(1×1畳み込み)
この畳み込みは従来の畳み込みと同じ方法で畳み込むのですが、フィルターのサイズが1×1なのに注意してください。フィルターのサイズが1×1なので、出力特徴マップ1枚のサイズは入力と変わりませんが、この畳み込み処理のおかげでチャネル間での依存関係を考慮できるようになります。
Depth-wise ConvとPoint-wise Conv
従来の畳み込みとDepth-wise Convolution & Point-wise Convolutionを組み合わせたものだと後者のほうが計算量が少なく、精度が同等又はそれ以上となるみたいです。Xception、MobileNetのほかにもMobileNet V2, ShuffleNet, ShuffleNet V2などでも使用されています。
DiCENetの論文に記されている図っぽく書くと以下のようになります。
Depth-wise + Point-wiseの問題点
上で述べたように、Depth-wise ConvolutionとPoint-wise Convolutionの組み合わせは従来の畳み込みの代替として普及し、いろいろなモデルに適用されるようになりました。しかし、それによって新たな問題が発生しました。Point-wise Convolutionの計算が、モデル全体の計算の8,9割以上を占めることになり、Point-wise Convolutionが計算上のボトルネックとなったのです。
#DiCENetの畳み込み
これらの問題点を解決すべく、ShuffleNetなどが提案されました。DiCENetもその一つです。
DiCENetのDimConvはDepth-wise Convolutionの代替として、EFuseはPoint-wise Convolutionの代替として提案されました。
DimConv(Dimention-wise Convolution) 次元別の畳み込み
上で述べたDepth-wise Convolutionはチャネル別の畳み込みでしたが、DimConvはそれぞれの次元(width:幅、height:高さ、channel:チャネル)別に畳み込みをします。まずは入力を3つに分岐させて、それぞれの次元別畳み込みを行います。そして、それぞれの出力3つの加重平均を取って一つのテンソルにまとめ、DimConvの出力とします。これのおかげでDepth-wise Convolutionよりも空間的な特徴を抽出できるみたいです。
EFuse (Efficient Channel Fusion)
EFuseの入力はDimConvからの出力であり、EFuseはPoint-wise Convolutionのようにチャネル間の依存関係を考慮するための演算ですが、Point-wise Convolutionよりも計算量が大幅に少なくなるみたいです。まず入力を2つに分岐させてます。一方はGlobal Average Poolingの後に全結合層につなげて、シグモイドを適用します。もう一方では、チャネル別畳み込み(Depth-wise Convolution)をします。そして、それぞれの出力結果の要素ごとの乗算結果をEFuseの出力とします。
DiCENetのネットワーク構成
ネットワークの構成はShuffleNev2を参考にしています。詳しくはShuffleNetv2の論文を読んでください。
出力と入力のチャネル数が同じ場合、ShuffleNetv2では
Point-wise -> Depthwise -> Point-wise
という構成になっているところをDiCENetは
Point-wise -> DiCE unit
となっています。
出力のチャネル数が入力のチャネル数より増える場合(with Stirde)、ShuffleNetv2では
Point-wise -> Depthwise(stride=2) -> Point-wise
という構成になっているところをDiCENetは
Global Average Pooling -> DiCE unit -> Point-wise
となっています。