LoginSignup
1
1

More than 3 years have passed since last update.

Semantic segmentation: 空と木を見分けるために

Last updated at Posted at 2020-09-05

MIT scene parsing論文のまとめです。
画像は全て論文から引っ張ってきました。

Scene Parsing through ADE20K Dataset. B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso and A. Torralba. Computer Vision and Pattern Recognition (CVPR), 2017. PDF

ある画像を見て、ここは木だここは空だここはソファーだ、と認識させることは極めて難しいことだ。
ましてや、画像を見てラベルやbounding boxを出力するだけでなく、1 pixelごとに1ラベルを出力するsegmentationについて紹介する。

ユースケース

  • ロボットに空間を正しく認識させた上で、操作を行う
  • 画像から人/車/etcを自動で消したい場合
  • 画像の合成 image.png

課題: dataset & annotation

そもそも多様な画像(都市だけじゃない、家の中だけじゃない、etc)を集めたデータセットが貴重である。
また、1 pixelごとに1ラベルを出力するため、annotationは鬼のように面倒である。

  • Cityscapes: City scenes only
  • Pascal-Context: 20 object classes
  • SUN database
  • ADE20K: 150 object classes (論文で紹介されたデータセット)

image.png
論文から抜粋したfigure。めっちゃ細かい。

annotationがそもそも難しい件

Objectの間にヒエラルキーが存在する (例えばrimはwheelの一部で、ドアノブはドアの一部)が、ADE20Kの場合、3階層までのヒエラルキーを作りアノテーションさせているとか。すごい。

また、壁に絵がかかっている場合はどうラベルを作るか。ADE20KはCascade Segmentation Moduleを使い、今まで無視されてきたオブジェクト間の空間的関係性を踏まえてsegmentationを行なっている。以下の3つの大分類に分けている:

  • stuff (sky, road, building, etc)
  • foreground objects (car, tree, sofa, etc)
  • object parts (car wheels and door, people head and torso, etc) image.png

画像のように、3つの大分類に合わせて、3つのsegmentation streamを最終的に合わせる形でやっている。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1