LoginSignup
2
2
記事投稿キャンペーン 「AI、機械学習」

[論文解説]ConvNeXt v1/v2

Last updated at Posted at 2023-11-08

論文概要

大まかなCVモデルのトレンド

💡 自然言語の分野で使われたTransformerをCVにも応用したVision Transformer系のモデルが2020年台に台頭。ImageNetなどの分類タスクでConv系のモデルよりも性能が高かったため、研究が活発化。

ConvNeXtは、Vision Transformerなど最新の手法で用いられている細かな改善手法を取り入れて精度を高めたConv系統の次世代アーキテクチャ。ConvNeXtモデルは分類モデルであり、backboneとして物体検知やセグメンテーションにも活用も期待できる。


A ConvNet for the 2020s

著者:Zhuang Liu, Facebook AI Research (FAIR), UC Berkeley
arXiv:https://arxiv.org/abs/2201.03545
github:https://github.com/facebookresearch/ConvNeXt

備考:CVPR2022

💡 ResNetベースにいくつかの改良を重ねてImageNetでのaccを改善
  • 膨大な事前学習を必要とするTransformerを使用していない
    • Swin-Tありきのモデル。Swin-Tの構造をかなり取り入れている
    • ImageNetのデータセットでSwin-Tを微妙に上回っている
    • 円の大きさは計算量(≒モデルの大きさ)を表しており、コンパクトながら精度が微小にSwin-Tより高い
      image.png

ResNetの改善ポイント

image.png

  • stageの割合変更:stageとはresblockのまとまり
  • ReLUをGELUに変更

image.png


ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

著者:Sanghyun Woo, Meta AI
arXiv:https://arxiv.org/abs/2201.03545
github:https://github.com/facebookresearch/ConvNeXt-V2

備考:CVPR2023

💡 ConvNeXtをベースに改良を加えたモデル。

・自己教師あり学習のMasked Autoencoders(MAE)の要素を追加(FCMAE)
・特徴量崩壊を防ぐためのGRN層を追加

などでImageNet(画像分類), COCO(物体検知), ADE20K(セグメンテーション)のスコアを引き上げた。


FCMAE = Fully Convolutional Auto-Encoder

image.png

  • 入力画像をパッチ化
  • あらかじめ規定した割合のpatchのうち、60%をmaskする(見えなくしてしまう)
    • Vision Transformer系の場合は、ここでAttentionスコアを計算してAttention領域を決める
  • conv層を利用してencodeする
    • maskされたpatch数が多いため、かなり疎(sparse)な層が多数出てくる
  • 比較的軽量なモデルを用いてdecodeする
  • maskされた領域と、元々の画像とのMSE(最小二乗誤差)を計算する

GRN = Global Response Normalization

image.png

  • 特徴消失対策としての技術
  • ConvNeXtのV1(赤)は、特徴量が層を経るごとに消失してしまっていることがわかる

image.png

  • GRNを導入することで、特徴量は安定していじされている(青)

ConvNeXt v1/v2モデルのラインナップ

image.png

  • Tinyは邦訳的に結構小さいのかと思いきやそこそこ中ぐらいの立ち位置の模様。
  • YOLOXのmは25.3Mなので、NanoとTinyの中間ぐらいのサイズ感、YOLOXのXは99.1M

--

参考文献

convnext v1

convnext v2

transformer

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2