Augmented Reality Meets Computer Vision: Efficient Data Generation for Urban Driving Scenes
Deep learningの利用には大量のラベル付きデータが必要である。
そこでvirtually rendered 3D worldを用いたシミュレーションによるデータ生成が考えられている。
しかしこれに関しても結局人手によるコンテンツ作成が必要であって高コストである。
本論ではこれらに代わり、現実と人工のデータを組み合わせる事でinstance segmentationやobject detectionの学習を行う手法を提案する。
この手法では、シーンの全ての物体が等しく重要な訳ではないことに注目する。
この事を利用しつつ、現実の画像をAugmented Realityの技術を用いて仮想の物体を追加する。
これにより、現実のバックグラウンド画像の上に複雑な物体を増やしていく事が可能になる。
これにより効率よく人工データを作成する事が出来る。
MegDet: A Large Mini-Batch Object Detector
CNN-basedのobject detectionはバッチサイズとして2を選択するのが一般的であった。
一方で画像分類などではバッチサイズは256が選択されるのが一般的で対照的になっている。
小さいバッチサイズを用いた時の問題は、学習時間が長くなる事、BNを適用する際に
統計量が上手く推定出来ないこと、バッチ内においてimbalancedな分布になる事。
本論では上記問題に対処する大きなバッチサイズの学習を可能にする手法を提案した。
大きなバッチサイズを利用する事の問題としては、learning rateを大きくしなければモデルの
精度を維持出来ない問題がある事である。
しかしlearning rateを大きくすると収束性に問題がある。
本論では、learning rateを適応的に変える事で対応する。
具体的にはgradientの分散を維持する事、小さいrateから開始して少しづつ増やす、
Warp up戦略を用いた。
またBNの問題に関してはcross GPUでの処理スキームを提案する事で、大きなバッチサイズでの
BNを実現し、統計量推定の精度を改善した
結果、本手法はMS COCO2017で一位を達成した。
Semantic Change Detection with Hypermaps
異なった時間に撮られたあるシーンの画像に対してその違いを、その意味を含めて検出する。
これはdisaster detectionなどにおいて、変化が検出された場所においてそれがどのような変化であるか人が判断するのが難しい場合があるため、重要である。
本論ではこの問題に対して、semantic change detectionと呼ばれる手法を提案する。
この手法ではCNNの抽出特徴とchange detectionの組み合わせにより、変化点検知と、その変化内容の
意味的のclassificationを行う。
特にCNNを用いた特徴抽出に関して、従来手法である各層の特徴を組み合わせるhyper columnを
改良したhyper map特徴を用いる。
またマルチスケールの入力を用いる事で性能を改善した。