結論
EfficientDetで用いられた compound scaling
(複合スケーリング)におけるスケーリング原則にしたがって、アーキテクチャの層の深さとチャンネル数を変更した違いを表記したもの。
背景
YOLOXやYOLOv7の論文を見ているとYOLOX-sやYOLOX-mなどのモデルの表記が突然でてくる。
表を見ているとモデルのパラメーターが減っている違いなどがあるが、具体的な内容が知りたかった。
調査
いつから表記されるようになったのか
YOLOv3やYOLOv4の論文ではこのような表記は存在しない。論文として残っているモノで初めて見られるのはYOLOXの論文である。YOLOXの論文中の2.2節にあるModified CSPNet in YOLOv5
の項には以下の記載が見られる。
We also follow its scaling rule to product YOLOXS, YOLOX-M, YOLOX-L, and YOLOX-X models. Compared to YOLOv5 in Tab. 3,
YOLOv5で導入された何かが影響していそうである
YOLOv5について調べてみようとしたが、論文が存在しない。仕方ないのでgithubの方で調べてみると以下のissue内で以下の表記を見つけた。
@Averen19 yes the YOLOv5 models are all compound-scaled variants of the same architecture. I did this following the EfficientDet compound scaling model, minus the image scaling.
どうやら 画像のリサイズ以外は EfficientDet におけるcompound scaling
に従っているようである。
EfficientDetの compound scaling
EfficientDetについてを見ていく。
この論文ではモデルのスケールアップ(同一のアーキテクチャにおいて層の深さやチャンネル数を増やすことで精度向上を行うこと?)を効率化するために画像のサイズや層の深さ、チャンネル数を変化させるために単一のパラメーターを用いる方法を採用しているようである。
この手法をYOLOに導入することにより、YOLO-sなどの表記がなされるようになったようである。