More than 3 years have passed since last update.

Variational amodal object completion

Last updated at 2021-06-30Posted at 2021-06-30

Field : Amodal Instance Segmentation, Amodal Instance Complete
Conference : NeurIPS
Year : 2020
URL : https://proceedings.neurips.cc/paper/2020/hash/bacadc62d6e67d7897cef027fa2d416c-Abstract.html

どんなもの？

アモーダル補完のためのVAE
→ 部分的に隠されたマスクから完全なマスクを再構成する

セマンティックセグメンテーションの研究のほとんどは、オブジェクトの可視ピクセルをセグメント化することに焦点を当てている。[6, 11, 34]
→ なぜ？: アモーダルセグメンテーションのためのラベル付きデータが不足しているから。アノテーションタスクの難しさと曖昧さが原因であると考えられる。

→ 学習時にアモーダルなラベルを必要とせず、現在のデータセットで広く利用されているオブジェクトの可視部分のインスタンスマスクを利用する。

部分的に見えるマスクy^
→ 潜在空間にエンコード
→ 潜在コードzをフルマスクyにデコード

部分インスタンスマスク yˆi 、それに対応する完全なマスク yi
（潜在的にはインスタンスクラス ci などの追加情報）

VAELoss : ELBO（変分下限）を最大化する（https://nzw0301.github.io/assets/pdf/vae.pdf）

→以降デコーダpw1 (y|z)は固定

部分的に可視化されたマスクyˆに対して、その可視ピクセルをyˆ visとする

出力マスクは部分的な入力マスクと同じ縮尺ではない。
→アフィン変換で調整

KINS : ストリートシーンデータセットKITTI から派生した大規模データセット

→ トレーニングではインスタンスマスクのみを利用し、評価ではamodal ground truthラベルのみを利用する。

De-occlusion : 最先端Amodal補完モデル
→ 不可視領域のmIOUで5.66%、フルmIOUで0.64%上回った。
Nearest Neighbor Mask : 部分マスクに対して、コサイン類似度が最も高い完全マスクを出力
RGB-Amodal-VAE : 入力にRGB情報を追加
→ 性能がわずかに低下
→ より慎重に設計されたモデルアーキテクチャでは、RGB入力からより有用な情報を抽出できる可能性がありますが、これは今後の研究に委ねます。
Amodal-VAE + GT Box : 部分マスクのBBoxでクロップしていたが、GTBoxによってクロップ
→ 入力されたマスクを自動的にうまく切り取ることで、改善の余地があることを示している。

FID(↓)比較

学習時に完全なマスクを持つ高品質なデータセットが必要であり、各カテゴリには十分な数のオブジェクトが含まれていなければならない。
→ このモデルを、より複雑なシーンやデータが限られている環境に適用することは、今後の課題とする。
RGB-Amodal-VAEだと精度が下がる。

Self-supervised scene de-occlusion（これ以前の最先端Amodal補完モデル）
→ グラフを用いてインスタンスを順序付けながらAmodal補完してそうhttps://arxiv.org/abs/2004.02788
→ 日本語まとめ [http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/246/](http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/246/