1. 概要
最新の研究では、3Dインスタンスセグメンテーションにおいて、トランスフォーマーベースの手法が主流となっている。この手法では、初期のインスタンスマスクを使ってオブジェクトを特定し、それを元に自己修正を行う。しかし、初期マスクによる低再現率の問題に気づきを得て、マスク注意の代わりに中心回帰タスクを導入することにした。中心回帰により、低再現率の問題を効果的に克服し、クロスアテンションを行う。この手法では、一連の位置認識設計を開発し、3D位置の空間分布を学習することでオブジェクトを捉える能力を向上させた。また、相対位置エンコーディングと改良された位置クエリを提案した。実験結果から、従来の手法よりも収束が4倍速くなり、ScanNetv2 3Dインスタンスセグメンテーションベンチマークでも優れたパフォーマンスを示している。
2. 新規性
- 既存のTransformerベースの手法では、初期インスタンスマスクのリコールが低く、トレーニングの難しさと収束の遅さの原因となることを観察した。
- マスク注意ではなく、補助的な中心回帰タスクを構築し、これによってリコールの問題を克服し、それに応じた一連の位置認識コンポーネントを設計した。このアプローチは、より速い収束を示し、より高い性能を発揮する。
- 実験では、このアプローチが新しい最先端の結果を達成し、ScanNetv2、ScanNet200、S3DISなどのさまざまなデータセットで優れたパフォーマンスを示すことが示されている。
3. 実現方法
コンテンツクエリQc0に加えて、学習可能な位置クエリQp0のセットも保持する。コンテンツクエリQcは、グローバルな特徴Fから特徴を集約する。位置クエリQpは、クロスアテンションをガイドするために設計されている。アテンションの重みは、位置クエリQpとグローバルポジションPの相対位置に基づいて調整される。コンテンツクエリと位置クエリは、各レイヤーで反復的に改良される。デコーダーレイヤーは3つしか表示されていないが、実際の実験では6つのレイヤーを使用している。
4. 結果
従来の手法よりも収束が4倍速く、ScanNetv2、ScanNet200、S3DISなどのさまざまなデータセットで優れたパフォーマンスを示すことが示されている。