ごめんなさい。まだ下書きに近いです。。。
#TL;DL
- 3Dデータに対する深層学習手法のsurvey論文(Deep Learning Advances on Different 3D Data Representations: A Survey)を読んだ
- 3Dデータはユークリッドデータと非ユークリッドデータに大別される
- ユークリッドデータは通常のCNNを応用可能
- 非ユークリッドデータは独自の畳み込み手法を定義する必要がある
3次元データの種類
ユークリッドデータ
- RGB-D
- 写真に対して深度情報を付与したデータ
- カメラとLiDARの組み合わせやKinectなど
- ボクセル
- ある単位の立方体(ボクセル)を空間的に想定して、ボクセルを積み上げて三次元を表現する
- ボクセルの作り方は点群から作成したりする
- マルチビュウデータ
- 表現したい立体的なデータに対して、あらゆる方向から撮影した画像を作成
非ユークリッドデータ
- 3次元点群
- x、y、zで表現される点の集まり
- 同じ物体を表現するにしても、シーケンシャルになっていなくて、順番が変わったりする
- Graph
- 点群の各点をノードとして、近傍のつながりをエッジとする情報を持つ
- メッシュも結局Graph
- メッシュは点群の頂点をノードとして、周辺の点群に対して三角形を作るようなエッジを持つ
- つまりGraph
深層学習手法の適用
ユークリッドデータ
-
RGB-D
-
ボクセル
-
マルチビュウデータ
非ユークリッドデータ
- 3次元点群
- x,y,zの集まりである点群は入力される順番に依存しないような特徴量抽出が重要
- PointNetでは入力順番に依存しないようにMaxPooingを入れている
- Graph
- ある点に対して特徴をまとめたい点群をGraph構造を作成
- そのGraphに対してGpaphConv.を適用
- GraphCopnv.といっても単なるMLPであることが多い