Rethinking Atrous Convosution for Semantic Image Segmentation
本論ではatrous convolutionについて再考する。
Atrous convolutionは陽にfilterのFOVや出力のresolutionを制御可能な畳み込み構造で、
Semantic segmentationタスクに使われる。
本論では、多スケールの画像のsegmentationを行うために複数のatrous rateを用いて、
Atrous convolutionを並列、またはカスケードで接続した構造を提案する。
またこれを従来手法であるAtrous Spatial Pyramid Pooling moduleに適用し拡張し、
画像特徴をマルチスケールで抽出する事でglobal scaleのコンテクスト抽出を可能にした。
これによりDeepLabv3を作成した。
Street-View Change Detection with Deconvolutional Networks
車両にマウントされたカメラから得られるstreet viewに対して構造的な変化検知を行う手法を提案する。
これは自動運転システムなどで使われる地図システムなどで地図の更新を行うに辺り重要な手法である。
本論では初めてmulti-sensor fusion SLAMとdense 3D reconstructionのパイプラインを繋げる手法となっている。
これはdeepnetを用いて2つのイメージペアを荒く結びつけ、その間でchange detectionを実現する。
学習にあたって必要な教師データを新たに作成し、それは既存の公開データと比較して大きなものと
なっている。
Perceptual Adversarial Networks for Image-to-Image Transformation
より一般的に画像タスクへ用いる事が可能なimage-to-image transformation手法としてPerceptuahl Adversarial Networks (PAN)を提案する。
PANはimage transformation networkとdiscriminative networkの2つのCNNから成り立つ。
Generative adversarial lossに加えて新たに提案するperceptual adversarial lossを組み合わせる事で、
2つのネットワークは交互学習を通して学習が可能である。
その学習を通して、discriminative networkは生成された画像と真値との差異を学習し、
一方Image transformation networkはdiscriminative networkで発見された差異を最小化するように
学習が行われる。