More than 3 years have passed since last update.

【Semantic Segmentation】 videoの連続性を使って、dataのかさ増し

Posted at 2020-12-02

Improving Semantic Segmentation via Video Propagation and Label Relaxation

![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/482094/54acdcac-e460-ac7a-02c0-9ee22b708f77.png)

annotation dataを増やそうというのがこの論文のメインテーマである。

optical flowを知っている人であれば簡単にイメージ出来ると思うが、画像とGround Truthデータのpixelをともにshiftすることでデータが増やせる。

新規性

データを増やそう

![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/482094/cf260e58-c5ab-e251-54d3-7b034997d5b3.png)

Optical Flow(時系列におけるpixelの移動)を用いる事でground truthのデータ(time=tをシフトしただけ)を生成する事が出来る。
ついでに対応する画像も必要なので、画像もpixelを移動させる

Optical Flow

過去のデータから次のframeの移動量(x,y)を推定する

Video Prediction(Motion Vector)

![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/482094/ce80d5e1-e7df-4f89-0b0a-afddc20142c0.png)

もうちょっと精度あげたくないってことで
Optical Flowと画像を入力して畳み込みを行いMotion Vectorというのを提案した。
要はOptical FlowをちょっことRefinementしてみた感じ。

*g(I,F): 画像とOptical Flowから得られたMotion Vector
*T(M,I) : Motion Vectorと画像を入力に次のFrameを推定する

Video Reconstruction(Motion Vector)

![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/482094/67d9268c-b52f-f8d7-4a22-3a3ea68a8bec.png) 過去データと現在のデータから未来を推定するより、未来のデータがあるんだから未来のデータと現在のデータから未来を推定(差分を見る)する方が正確だよね。というアイデア

t-1とtから得られたMotion Vector
より
tとt+1から得られたMotion Vector
の方が
tの画像からt+1の画像を推定するのに適している。

*recording dataだから出来る

Boundary Label Relaxation

![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/482094/46375a6b-2e07-fc98-e786-f3ee2f255e16.png)

物体のedgeではannotationが正確でないことはよくある。
例えば、車と人のpixelが隣りあっていたら、人と推定しても車と推定しても正解にしよう！
という優しさがBoundary Label Relaxationである。

結論

・画像の連続性を使いannotationデータを増やしていた。・Boundary Label Relaxaxionで物体の境界線はどっちに推定しても良いようにしていた。

dataを増やす発送は面白いと思った。しかし、実用として精度が落ちる可能性があるので使わないと思う。
Boundary Label Relaxationは一般的に有効な手段だと感じた。

参考文献

Improving Semantic Segmentation via Video Propagation and Label Relaxation https://arxiv.org/pdf/1812.01593v3.pdf

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up