1. 概要
Convolutional Neural Networks(CNNs)が画像認識で大きな成功を収めたのち、大規模なVision Transformers(ViTs)の研究が進んでいるが、CNNsをベースとした大規模なモデルがあまり研究されていないことに着目し、ViTsと同様にパラメータとトレーニングデータを増加させたときにどのような利点があるのかを調査した研究。
2. 新規性
通常のCNNとは異なり、提案手法ではカーネルサイズの変形可能な畳み込み演算をメインに採用しており、物体検出やセグメンテーションなど個別のタスクに必要な大規模な受容野(CNNが特徴を取り込める空間的範囲)を持つだけでなく、入力とタスク内容に応じて適応的に受容野を変動できるので、空間的な情報集約能力がタスクやデータにフィットさせやすくなっている。
3. 実現方法
CNNのカーネルサイズは3x3だが、DCN(Deformable Convoutional Networks)ではフィルターのサンプリング位置が空間的に散っていることで離れた個所の相関関係も学習できる。提案手法のDCNv3では、逐次的処理でDCNのパラメータを効率的に推定できるように設計されており、DCNの計算コストを削減したことで高速に学習や推論ができるようになった。
4. 結果
従来のCNNでは、畳み込み層とプーリング層を組み合わせて特徴を抽出するため、画像内の局所性と位置に基づくパターンを優先的に学習してしまい、大規模データセットや複雑なパターンを持つデータに対してはより柔軟な特徴表現や空間的な情報集約能力が求められるため制約となっていた(=帰納的バイアス)。提案手法では、CNNsの帰納的バイアスを軽減し、ViTsのような汎化性を持つパターンを学習することが可能となった。
ImageNet/COCO/ADE20Kなどで評価し、特にCOCO test-devで65.4mAP、ADE20Kで62.9mIoUの新記録を達成した。
last updates: June 30 2023