概要
DeepLab系列をbaseにしてPanoptic Segmentationを行えるNetworkがあったので読んでみた。
・ASPP(Atrous Spatial Pyramid Pooling)
・Panoptic Segmentation(Instance Segmentation + Semantic Segmentation)
・Key pointを使ったinstance segmentation
この3点を既に理解していればこのネットワークの新規性は少しだけ。
新規性

S2D / D2S

図のように変形する事でメモリの消費量を変えずに画像サイズを変更出来るらしい。
なんかちょっと不思議な感じ。
多分そんなに重要じゃないから軽く流そうm(_ _)m
PC(Parsing Covering)

Ponotic SegmentationではPQ(Panoptic Qality)が評価指標として使われる事が一般的。
近い物体(大きい物体)は自動運転などで検出精度が高くあるべきという事から大きな物体に焦点を当てる評価指標を提案。
C : classの数
Ni : あるクラスのGround Truthのpixelの数
maxIOU(R,R') : ある物体のGround Truthに対する最大(predictionの中から一番重なっている範囲が大きいやつ)のカバー率(0~1)
Covi : あるクラスのGround Truthに対するカバー率
PC : 全クラスのGround Truthに対するカバー率
結論
PC(Parsing Covering)は使えそうだなって思った。
参考文献
DeeperLab: Single-Shot Image Parse
https://arxiv.org/pdf/1905.01220.pdf
https://qiita.com/masataka46/items/07c8138239dd5895ebcf