新規性
 一番下の段のEncoder-Decoder Modelで精度の良いSegmentationをするのに多くのLayerが必要になる。 これは計算コストが無駄だと考え、1/2,1/4にDownsampleした画像を畳み込み、結合する事で計算量を小さいまま精度の良い結果を得る事が出来る。紫色の線はTrainning時のみに使われ、Groundと比較してlossをそれぞれのサイズ毎に計算している。このように中間でlossを計算する事により安定したTrainingが行われる事が一般的に知られている。
CFF(Cascade Feature Fusion)は図のような設計になっており、紫の線がTraining時に適応されるlossを計算する為のpipelineである。Classifier ConvでSemantic Mapを推定しLABEL(Ground Truth)と比較してlossを計算している。
F1(低解像度)とF2(高解像度)のfeature mapを前処理を行い、足し合わせた後にReLUをすることにより情報の結合を行っている。
*Dilated Conv =>upsampleしたsparseなFeature MapをDenseにする為の処理
*Projection Conv =>F1とchannel数を一致させる為の1x1 convolution
個人的にはSUMではなくconcatenateした方が精度上がる気がするのだが、計算コストの問題だろうか
結果
精度もそこそこで早い!
結論
downsampleしてから畳み込む事でスピードを上げ、高解像度のFeature Mapに足し合わせる事で精度を担保している。シンプルで速くて精度がそこそこだから実用向きなネットワークだと思うa