1. 概要
3D認識に基づく高品質で制御可能なシーン合成のための生成モデル。
2. 新規性
従来の3D認識アプローチは、主に単一の標準的なオブジェクトの生成に焦点を当てていて、複数のオブジェクトを含む複雑なシーンの合成については限定的であった。DisCoSceneは、シーンのレイアウトを表す非常に抽象的なオブジェクトレベルの表現(セマンティック注釈のない3Dバウンディングボックス)を事前条件として使用する。の表現は、取得が容易であり、さまざまなシーンの内容を一般的に記述することができ、オブジェクトと背景を区別する上で有益である。
3. 実現方法
実現方法シーンのレイアウトを表す非常に抽象的なオブジェクトレベルの表現は、シーン編集の直観的なユーザーコントロールとしても機能する。提案されたモデルは、この事前条件に基づいて、グローバルとローカルの識別を学習することで、オブジェクト中心の生成放射輝度場に全体のシーンを空間的に分解する。このモデルにより、個々のオブジェクトの生成品質と編集の柔軟性を得ることができ、効率的にオブジェクトと背景を完全なシーンに組み合わせることができる。
4. 結果
Waymoの屋外データセットをはじめとする多くのシーンデータセットで、最先端のパフォーマンスを示した。