機械学習論文読みメモ_154 #機械学習

Recurrent Slice Networks for 3D Segmentation of Point Clouds
Point cloudは三次元データの効率的な表現である。
しかしこのデータに対する三次元セグメンテーション手法は
局所的な依存関係を考慮しないか、高い計算コストを要求する。
本論では新たな三次元セグメンテーション手法としてRSNetを提案する。
RSNetは局所関係性のモデルを持つ。
これは新たに提案するslice pooling/unpooling layerとRNNの組み合わせで
成り立つ。
slice pooling layerは非順序的なpoint cloudを順序的な特徴シーケンスへ変換する。
これによりRNNが適用可能になる。

CodeSLAM -- Learning a Compact, Optimisable Representation for Dense Visual SLAM
3D perceptionにおいて、リアルタイムなgeometryの表現はいまだ重要な問題である。
従来手法においては、dense mapは対象の表面的構造を完全に捉える事が可能で、かつ
semantic labelを使った拡張も可能だが、計算量はメモリ消費などで課題がある。
一方sparse feature based representationはそうした計算量やメモリの問題を回避できるが、
目の前のシーンの一部しか捉えられず、基本的に自己位置推定のみに使われる。
本論ではコンパクトなdense representationを提案する。
この表現は、画像の輝度情報によって条件付けられた少量のパラメータで特徴づけられる
codeで成り立つ。
この手法は画像から深さ推定を行う手法や、autoencoderにインスパイアされている。
提案手法はkeyframe based monocular dense SLAMのアプローチの中で使うのが合っている。
つまり、keyframe毎にcode特徴より深さを予測し、これはpose変数と他のkeyframeとのoverlap部
との一貫性において最適化される。
depth mapを用いた条件付けにより、学習されたcode特徴は局所的な幾何構造のみを表現する事を可能にする。

MaskRNN: Instance Level Video Object Segmentation
instance levelのvideo object detectionは重要なタスクである。
本論ではRNNに基づいた手法を提案する。
この手法は各フレーム事に２つのネットワークを適用した出力をRNNで
つなぐことで推論を行う。
この２つのネットワークはmaskingを行うbinary segmentationと
物体のbounding boxを推定するlocalization networkである。
RNNにより時間方向の関係性を考慮した外れ値除去が可能になる。