Deep Learning Advances on Different 3D Data Representations: A Survey

ごめんなさい。まだ下書きに近いです。。。


TL;DL


  • 3Dデータに対する深層学習手法のsurvey論文(Deep Learning Advances on Different 3D Data Representations: A Survey)を読んだ

  • 3Dデータはユークリッドデータと非ユークリッドデータに大別される

  • ユークリッドデータは通常のCNNを応用可能

  • 非ユークリッドデータは独自の畳み込み手法を定義する必要がある


3次元データの種類


ユークリッドデータ


  • RGB-D


    • 写真に対して深度情報を付与したデータ

    • カメラとLiDARの組み合わせやKinectなど



  • ボクセル


    • ある単位の立方体(ボクセル)を空間的に想定して、ボクセルを積み上げて三次元を表現する

    • ボクセルの作り方は点群から作成したりする



  • マルチビュウデータ


    • 表現したい立体的なデータに対して、あらゆる方向から撮影した画像を作成
      ## 非ユークリッドデータ



  • 3次元点群


    • x、y、zで表現される点の集まり

    • 同じ物体を表現するにしても、シーケンシャルになっていなくて、順番が変わったりする



  • Graph


    • 点群の各点をノードとして、近傍のつながりをエッジとする情報を持つ



  • メッシュも結局Graph


    • メッシュは点群の頂点をノードとして、周辺の点群に対して三角形を作るようなエッジを持つ

    • つまりGraph



3次元データの種類


深層学習手法の適用


ユークリッドデータ



  • RGB-D


    • 単なる画像なので、一緒にCNNに入れるもよし

    • 2ストリームでRGB画像だけでCNNに入れ、Depth画像をCNNに入れて、FC層でConcatすることもOK
      image.png




  • ボクセル


    • 画像は2次元だっかけど、ボクセルになったデータは3次元の畳み込みをやればいい

    • 2次元画像の素直な拡張になる

    • ただし、表面形状を扱うので、空間的には疎な多次元配列になる
      image.png




  • マルチビュウデータ


    • 各視点の画像は単なるRGB画像なので普通のCNNに入れることができる

    • 各支店の情報をFC層でConcatしたりすると立体的な情報をとることができる
      image.png




非ユークリッドデータ


  • 3次元点群


    • x,y,zの集まりである点群は入力される順番に依存しないような特徴量抽出が重要

    • PointNetでは入力順番に依存しないようにMaxPooingを入れている



  • Graph


    • ある点に対して特徴をまとめたい点群をGraph構造を作成

    • そのGraphに対してGpaphConv.を適用

    • GraphCopnv.といっても単なるMLPであることが多い



モデル