More than 1 year has passed since last update.

CNNとViTのハイブリッドモデル【CoATNet】

Last updated at 2023-07-01Posted at 2023-06-28

原論文
CoAtNet: Marrying Convolution and Attention for All Data Sizes
https://arxiv.org/abs/2106.04803

日本語解説
畳み込み+Attention=最強？最高性能を叩き出した画像認識モデル「CoAtNet」を解説！
https://qiita.com/omiita/items/b97e68e1bbfdfa71ba79

結論

浅い層でCNN，深い層でViTをやる．

概要

ViTの分析により，浅い層では局所的な認識を好み，深い層では大局的な認識を好む傾向がある．この傾向を引き継ぐように浅い層の局所的な認識を局所的な認識が得意な畳み込みに置き換える．具体的には，4ステージ構造の階層型で最初の1,2ステージを畳み込み，3,4ステージをself-attentionを採用する．CoATはImageNetかた3億枚の画像データセット（JFT-300M）においても高精度を叩き出した．

モデル構造

CoATのモデル構造を下図に示す．1,2ステージを畳み込み，3,4ステージをself-attentionを採用する．これにより，ViTの苦手な局所的な認識を補助する．また，前半の畳み込みによって特徴量がダウンサンプリングされるため，SAの計算量を削減する．ステージ0として，畳み込みを使用して入力画像をダウンサンプリングする．ステージ間のダウンサンプリングにはmax poolingが採用する．

畳み込みブロックは，逆ボトルネックを採用する．1x1畳み込みによって，チャンネル数を4倍にして3x3DWConvを行う．その後，1x1畳み込みでチャンネル数を元に戻す．従来研究から，畳み込み認識は層を深くすることより，チャンネル数を増やすことが高い性能につながることが分かっている．