Self-Supervised Depth Learning for Urban Scene Understanding
画像上の物体の見かけ上の動きは、そのdepthに反比例する。
例えば視点の動きに対して、遠くの山はあまり移動しないが、
近くの木などは大きく移動する。
こうした情報は、見えている世界に関する立地な情報を与える。
本論では画像群よりself supervisedな学習を行う事で
相対的のdepthを予測するモデルを提案する。
学習データは連続したカメラ画像から自動的に得る事ができる。
学習には従来のdepth from monoの手法を行う事ができる。
このようにして学習されるdepth from monoのモデルは、関連した
Semantic segmentation, detection, 絶対depth estimationなどの学習において良い初期値を与える。
従来の動作物に依存するような手法と違い、提案手法は動作物に依存せず、
また邪魔されたりもしない。
Wasserstein Auto-Encoders
データ分布に対する生成モデルとしてWasserstein Auto-Encoder (WAE)を提案する。
WAEは目標分布とモデル分布の間のWasserstein distanceを罰則項とともに最適化する。
これにより従来手法であるVariational Auto Encoderとは違った正則化が行われる事となる。
つまり、encodeされた学習データ分布がprior分布と一致するように学習されるようになる。
この提案手法を他手法と比較したところ、これはAdversarial Auto Encoderの一般化に値する
事がわかった。
Data Distillation: Towards Omni-Supervised Learning
全てのラベル付きデータに加えて、インターネットスケールの
ラベルなしデータも活用できる半教師あり学習手法として
Omni-supervised learningを提案する。
この学習は単純な教師あり学習よりも高性能なモデルの獲得が期待できる。
このomni-supervised設定を活用するために、data distillationを提案する。
Data distillationでは単一のモデルを利用してラベルなしデータに対する
複数のtransformationをかけたものに対する予測結果をアンサンブルしたものを
教師情報として利用する。
こうした複数のtransformationをかけて予測性能を上げる手法は例えば、
マルチスケールを組み合わせた物体検知などの文脈で一般的である。