LoginSignup
1
1

More than 5 years have passed since last update.

機械学習論文読みメモ_154

Posted at

Recurrent Slice Networks for 3D Segmentation of Point Clouds
Point cloudは三次元データの効率的な表現である。
しかしこのデータに対する三次元セグメンテーション手法は
局所的な依存関係を考慮しないか、高い計算コストを要求する。
本論では新たな三次元セグメンテーション手法としてRSNetを提案する。
RSNetは局所関係性のモデルを持つ。
これは新たに提案するslice pooling/unpooling layerとRNNの組み合わせで
成り立つ。
slice pooling layerは非順序的なpoint cloudを順序的な特徴シーケンスへ変換する。
これによりRNNが適用可能になる。

CodeSLAM -- Learning a Compact, Optimisable Representation for Dense Visual SLAM
3D perceptionにおいて、リアルタイムなgeometryの表現はいまだ重要な問題である。
従来手法においては、dense mapは対象の表面的構造を完全に捉える事が可能で、かつ
semantic labelを使った拡張も可能だが、計算量はメモリ消費などで課題がある。
一方sparse feature based representationはそうした計算量やメモリの問題を回避できるが、
目の前のシーンの一部しか捉えられず、基本的に自己位置推定のみに使われる。
本論ではコンパクトなdense representationを提案する。
この表現は、画像の輝度情報によって条件付けられた少量のパラメータで特徴づけられる
codeで成り立つ。
この手法は画像から深さ推定を行う手法や、autoencoderにインスパイアされている。
提案手法はkeyframe based monocular dense SLAMのアプローチの中で使うのが合っている。
つまり、keyframe毎にcode特徴より深さを予測し、これはpose変数と他のkeyframeとのoverlap部
との一貫性において最適化される。
depth mapを用いた条件付けにより、学習されたcode特徴は局所的な幾何構造のみを表現する事を可能にする。

MaskRNN: Instance Level Video Object Segmentation
instance levelのvideo object detectionは重要なタスクである。
本論ではRNNに基づいた手法を提案する。
この手法は各フレーム事に2つのネットワークを適用した出力をRNNで
つなぐことで推論を行う。
この2つのネットワークはmaskingを行うbinary segmentationと
物体のbounding boxを推定するlocalization networkである。
RNNにより時間方向の関係性を考慮した外れ値除去が可能になる。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1