More than 1 year has passed since last update.

[論文解説]ConvNeXt v1/v2

Last updated at 2023-11-08Posted at 2023-11-08

論文概要

💡 自然言語の分野で使われたTransformerをCVにも応用したVision Transformer系のモデルが2020年台に台頭。ImageNetなどの分類タスクでConv系のモデルよりも性能が高かったため、研究が活発化。

ConvNeXtは、Vision Transformerなど最新の手法で用いられている細かな改善手法を取り入れて精度を高めたConv系統の次世代アーキテクチャ。ConvNeXtモデルは分類モデルであり、backboneとして物体検知やセグメンテーションにも活用も期待できる。

著者：Zhuang Liu, Facebook AI Research (FAIR), UC Berkeley
arXiv：https://arxiv.org/abs/2201.03545
github：https://github.com/facebookresearch/ConvNeXt

備考：CVPR2022

💡 ResNetベースにいくつかの改良を重ねてImageNetでのaccを改善

膨大な事前学習を必要とするTransformerを使用していない
- Swin-Tありきのモデル。Swin-Tの構造をかなり取り入れている
- ImageNetのデータセットでSwin-Tを微妙に上回っている
- 円の大きさは計算量（≒モデルの大きさ）を表しており、コンパクトながら精度が微小にSwin-Tより高い

備考：CVPR2023

💡 ConvNeXtをベースに改良を加えたモデル。

・自己教師あり学習のMasked Autoencoders(MAE)の要素を追加(FCMAE)
・特徴量崩壊を防ぐためのGRN層を追加

などでImageNet(画像分類), COCO(物体検知), ADE20K(セグメンテーション)のスコアを引き上げた。

入力画像をパッチ化
あらかじめ規定した割合のpatchのうち、60%をmaskする（見えなくしてしまう）
- Vision Transformer系の場合は、ここでAttentionスコアを計算してAttention領域を決める
conv層を利用してencodeする
- maskされたpatch数が多いため、かなり疎（sparse）な層が多数出てくる
比較的軽量なモデルを用いてdecodeする
maskされた領域と、元々の画像とのMSE（最小二乗誤差）を計算する

convnext v1

convnext v2

transformer

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, https://arxiv.org/abs/2010.11929