More than 5 years have passed since last update.

論文まとめ：TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation

Last updated at 2018-08-25Posted at 2018-08-25

はじめに

KaggleのCarvana Image Masking Challengeで１位を取ったモデル：TernausNet の論文をまとめてみた。

[1] V. Iglovikov, et. al. "TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation"

著者らのGithubコードは公開されている。
https://github.com/ternaus/TernausNet

アーキテクチャの全体像は以下の図。

[1]のFigure 1より

見た通り、通常のU-Net構造だが、encoderだけVGGNetを転移学習させる。

転移学習させるVGG-11のネットワークはこれ。

[1] Figure 2 より

よく見かけるVGG-11。このオレンジの部分（fully-connected)を取り払って、１つのconv層を追加し、encorderとする。

以下のIoU（Jaccard index）。

J(A,B) = \frac{| A \cap B |}{| A \cup B |} = \frac{| A \cap B |}{| A | + | B | - |A \cap B |}

２つの要素から構成される。１つ目はメトリクスのIoUを直接求める。

J = \frac{1}{n} \sum^n_{i=1} \left( \frac{y_i \hat{y_i}}{y_i + \hat{y_i} - y_i \hat{y_i}} \right)

ここで $y_i$ はi pixelのtarget、$\hat{y_i}$ は同推論値。

もう１つは通常のcross entropy。

H = - \frac{1}{n} \sum^n_{i=1} \left( y_i \log \hat{y_i} + (1-y_i)\log (1-\hat{y_i}) \right)

トータルのlossはこれら２つを足す。具体的には H に J の negative-logを足す。

L = H -\log J

転移学習の有効性を証明するため、転移学習したものとしないもので比較実験を行なった。

実験の設定は以下

転移学習しないモデルは以下の LeCun uniform initializerでパラメータを初期化した。

学習曲線は以下。

[1] Figure 3より

今回はVGG11の転移学習だったが、これをVGG16やResNetにすると、さらに精度が上がるのではないか。

この論文が出る前からコンペとかでsemantic segmentationモデルに転移学習を適応させていた方は多いと思うが、改めて論文にまとめてくれた点は有難い。