論文概要
大まかなCVモデルのトレンド
💡 自然言語の分野で使われたTransformerをCVにも応用したVision Transformer系のモデルが2020年台に台頭。ImageNetなどの分類タスクでConv系のモデルよりも性能が高かったため、研究が活発化。ConvNeXtは、Vision Transformerなど最新の手法で用いられている細かな改善手法を取り入れて精度を高めたConv系統の次世代アーキテクチャ。ConvNeXtモデルは分類モデルであり、backboneとして物体検知やセグメンテーションにも活用も期待できる。
A ConvNet for the 2020s
著者:Zhuang Liu, Facebook AI Research (FAIR), UC Berkeley
arXiv:https://arxiv.org/abs/2201.03545
github:https://github.com/facebookresearch/ConvNeXt
備考:CVPR2022
💡 ResNetベースにいくつかの改良を重ねてImageNetでのaccを改善- 膨大な事前学習を必要とするTransformerを使用していない
ResNetの改善ポイント
- stageの割合変更:stageとはresblockのまとまり
- ReLUをGELUに変更
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
著者:Sanghyun Woo, Meta AI
arXiv:https://arxiv.org/abs/2201.03545
github:https://github.com/facebookresearch/ConvNeXt-V2
備考:CVPR2023
💡 ConvNeXtをベースに改良を加えたモデル。・自己教師あり学習のMasked Autoencoders(MAE)の要素を追加(FCMAE)
・特徴量崩壊を防ぐためのGRN層を追加
などでImageNet(画像分類), COCO(物体検知), ADE20K(セグメンテーション)のスコアを引き上げた。
FCMAE = Fully Convolutional Auto-Encoder
- 入力画像をパッチ化
- あらかじめ規定した割合のpatchのうち、60%をmaskする(見えなくしてしまう)
- Vision Transformer系の場合は、ここでAttentionスコアを計算してAttention領域を決める
- conv層を利用してencodeする
- maskされたpatch数が多いため、かなり疎(sparse)な層が多数出てくる
- 比較的軽量なモデルを用いてdecodeする
- maskされた領域と、元々の画像とのMSE(最小二乗誤差)を計算する
GRN = Global Response Normalization
- 特徴消失対策としての技術
- ConvNeXtのV1(赤)は、特徴量が層を経るごとに消失してしまっていることがわかる
- GRNを導入することで、特徴量は安定していじされている(青)
ConvNeXt v1/v2モデルのラインナップ
- Tinyは邦訳的に結構小さいのかと思いきやそこそこ中ぐらいの立ち位置の模様。
- YOLOXのmは25.3Mなので、NanoとTinyの中間ぐらいのサイズ感、YOLOXのXは99.1M
--
参考文献
convnext v1
- https://devblog.thebase.in/entry/2022/03/28/110000
- https://lab.mo-t.com/blog/convnext
- https://github.com/facebookresearch/ConvNeXt/tree/main
convnext v2
transformer
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, https://arxiv.org/abs/2010.11929