More than 3 years have passed since last update.

論文まとめ：Deeper Depth Prediction with Fully Convolutional Residual Networks

Last updated at 2021-02-20Posted at 2021-02-20

はじめに

depth推定系の論文から、わりと初期の
[1] I. Laina, et. al. "Deeper Depth Prediction with Fully Convolutional Residual Networks
", 2016 Fourth International Conference on 3D Vision (3DV)
のまとめ

arXiv:
https://arxiv.org/abs/1606.00373

github:
https://github.com/iro-cp/FCRN-DepthPrediction
tensorflow実装等。

概要

単眼RGB画像からdepthを推定する
モデルはresidualなモジュールを使った全畳み込み層であり、MRF等の後処理等は必要ない
モデルの後半でup-samplingを使って解像度を上げるが、この際にup-projectonなる仕組みを用いる
reverse Huber lossを用いる

モデル全体のアーキテクチャ

モデルの全体像は以下。

図の通り、encodeして、その後解像度を上げる形。２列目あたりまではResNet-50を転移学習させたもの。なのでresidualなblockを多段にしたものとなっている。

３列目のup-samplingする部分が本論文の特徴の１つである。

NYU-depth v2 datasetであれば入力サイズを304x228とし、それより少し粗い160x128を出力する。

Up-Projection Blocks

本論文が提案している仕組みの１つ。以下の図で

(a)はun-poolingした後に5x5のカーネルでconvする単純なblock。

これに対し、Up-Projectionなるblockはun-poolingしたのちに２つのbranchに分ける。

一方は5x5カーネルでconvしたのちに3x3カーネルでconvする。もう一方は5x5カーネルでconvするのみ。これをaddし、さらにconvする。

(a)と(c)との精度の差は後述。

(b)と(d)は略。

Reverse Huber Loss

本論文の特徴の１つ。

L2 lossと以下のHuber lossを試している。

\mathcal{B}(x) = \begin{cases}
    | x | & | x | \leq c, \\
    \frac{x^2 + c^2}{2c} & |x| \geq c.
  \end{cases}

つまり、[-c, c] 間で L1 loss、その外側で L2 lossとしている。

ここで c はバッチ内でpredictとtargetとの差の最大値に対し、その1/5と定める。

c = \frac{1}{5}\max_i (| \tilde{y}_i - y_i| )

ざっくり考えると、L2だとpredictとtargetの差が大きい場合に勾配が大きくなるので、大きな差を縮小させる作用が強いが、一方でpredictとtargetとの差が小さい場合はlossも極端に小さくなり、考慮されない。結果、全体がぼやけたlow distortionのdepth mapが形成されるだろう。

そこで、差が小さい場合はL1とし、小さな差もそこそこ重視する、という感じだろうか。

これが NYU depth dataset のようなものとなったときに、効果を発揮するらしい。同 datasetはこんな感じで