HoloPart: Generative 3D Part Amodal Segmentation (2025)

Posted at 2025-06-09

HoloPart: Generative 3D Part Amodal Segmentation (Yang, 2025)

3行要約

✨この論文は、3D形状を隠れた部分を含めて完全な意味論的パーツに分解する、新しいタスクである3D部品アモーダルセグメンテーションを提案します。
💡著者らは、初期の不完全なセグメントを補完するために、ローカルおよびコンテキストアウェアなアテンションを備えた新しい拡散ベースモデルHoloPartを用いる2段階アプローチを提案します。
✅提案モデルは、新しいベンチマークにおいて既存の形状補完手法を大幅に上回り、ジオメトリ編集などの多様な下流アプリケーションを実現します。

Q:この論文の概要を教えてください

A:

本論文は「HoloPart: Generative 3D Part Amodal Segmentation」と題し、3Dオブジェクトのアモーダルパーツセグメンテーション（3D part amodal segmentation）という新しいタスクを導入しています。これは、従来の3Dパーツセグメンテーションが可視サーフェスパッチ（visible surface patches）のみを識別するのに対し（図1a）、オクルージョンされたジオメトリを含む完全なセマンティックパーツ（complete semantic parts）に3D形状を分解することを目的としています（図1b）。この能力は、ジオメトリ編集（geometry editing）、アニメーション（animation）、マテリアル割り当て（material assignment）など、完全なパーツジオメトリを必要とする3Dコンテンツ作成アプリケーションにとって極めて重要です。

3Dアモーダルパーツセグメンテーションは、
(1)オクルージョンされた3Dジオメトリの正確な推論
(2)完成したパーツと全体の形状とのグローバルなジオメトリ的・セマンティックな整合性の維持
(3)多様な形状およびパーツタイプへの汎化（限られたパーツ固有の学習データで）
という、非自明な複雑性を伴います。

これらの課題に対処するため、本論文は実用的かつ効果的な2段階アプローチを提案します。第1段階（Part Segmentation）では、既存の最先端手法（例: SAMPart3D）を利用して、入力形状の初期の不完全なパーツセグメンテーション（サーフェスパッチの集合 ${s_1, s_2, \ldots, s_n}$）を取得します。第2段階（Part Completion）は本研究の主要な貢献であり、不完全なパーツセグメント $s_i$ が与えられたとき、対応する完全なパーツ $p_i$ を生成することを目指します。これは、オクルージョンされた領域の欠落ジオメトリを推論しつつ、ジオメトリ的・セマンティックな整合性を維持する必要があります。

このパーツ補完タスクのために、本論文はHoloPartという新しいdiffusionベースモデルを提案します。HoloPartは、大規模な全体3D形状データセットで事前学習（Object-level Pretraining）された強力な3D生成事前分布を活用し、この事前分布をパーツ補完タスクに適合させます。モデルは、ローカルな詳細とグローバルなコンテキストのバランスを取るために、2つの主要コンポーネントを組み込んでいます。(1)ローカルアテンション（local attention）は、入力パーツの微細なジオメトリ詳細を捉えることに焦点を当てます。(2)形状コンテキストアウェアアテンション（shape context-aware attention）は、ローカルおよびグローバル情報の両方をDiffusionモデルに効果的に注入し、全体的な形状の整合性を保証します。

技術的な詳細として、HoloPartはVariational Autoencoder (VAE) を用いて点群 $X \in \mathbb{R}^{N \times 3}$ を潜在空間にエンコードします。エンコーダは学習可能な埋め込み関数とクロスアテンションモジュールを組み合わせ、潜在ベクトル $z$ を生成します：
$z = E(X) = \text{CrossAttn}(\text{PosEmb}(X_0), \text{PosEmb}(X))$
ここで $X_0$ は furthest point sampling によって $X$ からサブサンプリングされた点群です。VAEのデコーダは潜在コード $z$ とクエリ点 $q$ からオキュパンシーlogitを出力します：
$D(z, q) = \text{CrossAttn}(\text{PosEmb}(q), \text{SelfAttn}(z))$

diffusion denoising network $v_\theta$ はDiffusion Transformer (DiT) ブロックに基づいて構築され、圧縮された潜在空間で学習されます。順方向プロセスは線形補間 $z_t = (1 - t)z_0 + t\epsilon$ で定義されます。事前学習段階では、目的関数はフローマッチング目的関数 $\mathbb{E}{z \in E(X), t, \epsilon \sim N(0, I)} \left|v\theta(z_t, t, g) - (\epsilon - z_0)\right|^2_2$ です（ここで $g$ はレンダリングされた3D形状からの画像条件付け特徴です）。

パーツ補完のためのファインチューニングでは、ローカルアテンションとコンテキストアウェアアテンションが導入されます。不完全なパーツのサブサンプリング点 $S_0$ をクエリとし、コンテキストアウェアアテンション $c_o$ は全体の形状 $X$ とセグメンテーションマスク $M$ の情報を含む点群に対してクロスアテンションを行います：

$c_o = C(S_0, X) = CrossAttn(PosEmb(S_0), PosEmb(X\#\#M))$

ローカルアテンション $c_l$ は不完全なパーツサーフェスの点群 $S$ に対してクロスアテンションを行います：
$c_l = C(S_0, S) = \text{CrossAttn}(\text{PosEmb}(S_0), \text{PosEmb}(S))$
パーツdiffusionモデルは、これらの条件 $c_o, c_l$ を用いて学習され、目的関数は次のようになります：
$mathbb{E}{z \in E(K), t, \epsilon \sim N(0, I)} \left|v\theta(z_t, t, c_o, c_l) - (\epsilon - z_0)\right|^2_2$
（ここで $K$ は完全なパーツメッシュからサンプリングされた点群です）。学習済みモデル $v_\theta$ は、条件付きでノイズから完全なパーツの潜在表現を生成し、デコーダとMarching Cubesを用いて3Dメッシュに再構築されます。

学習データとしては、ABOデータセットのパーツグラウンドトゥルースに加え、PartObjaverse-Tiny（Objaverseのキュレーションされたサブセット）から、メッシュカウント制限、連結成分解析、ボリューム分布最適化などのフィルタリングルールを用いてパーツデータを抽出・処理しました。

評価のために、ABOおよびPartObjaverse-Tinyに基づいた2つの新しい評価ベンチマークを提案し、PatchComplete、DiffComplete、SDFusion、Finetune-VAEといった既存の形状補完手法と比較を行いました。評価指標には、予測されたパーツ形状とグラウンドトゥルースの間のL1 Chamfer Distance (CD) ↓、Intersection over Union (IoU) ↑、F-Score ↑、および再構築成功率（Success Rate）↑を用いました。実験結果は、HoloPartがパーツ補完タスクにおいて既存手法を大幅に上回り（表1, 2）、既存のセグメンテーション手法と組み合わせることで3Dパーツアモーダルセグメンテーションタスクにおいても優れた結果を達成することを示しました（表4）。また、大規模データセットでの事前学習により、生成されたメッシュに対するゼロショット汎化能力も実証しました（図5, 13）。

アブレーション研究により、提案されたコンテキストアウェアアテンションとローカルアテンションの両方がモデルの性能にとって不可欠であることが確認されました（表1, 2, 図10）。Diffusionサンプリングにおけるガイダンススケールについても分析を行い、最適な設定を特定しました（表3, 図11）。

HoloPartによって生成される高品質なパーツは、ジオメトリ編集（図1, 6a）、マテリアル割り当て（図1, 6c）、アニメーション、ジオメトリ処理（図6b）、パーツ認識生成モデルの学習用データ生成ツール、およびジオメトリ超解像度（図7）など、様々な下流アプリケーションを可能にします。

結論として、本論文は3Dパーツアモーダルセグメンテーションという新しい重要なタスクを導入し、このタスクの主要な課題であるパーツ形状補完のための効果的なdiffusionベース手法HoloPartを提案しました。提案モデルのローカルアテンションとコンテキストアウェアアテンションは、パーツのローカル詳細とグローバルな整合性の両方を捉えるために重要です。新しい評価ベンチマークでの包括的な評価により、提案手法が既存の形状補完手法を大きく上回ることが示され、本分野の将来の研究のための確固たる基盤が確立されました。

Q: 提案手法の処理の流れを順序だてて説明してください

A:

大きく分けて二つの連続するステップから構成されます。

ステップ1： Part Segmentation (パートセグメンテーション)

目的: 入力された単一の3D形状（図2左側の "Overall Mesh & Segmentation Mask" のメッシュ部分）から、最初の、しかし不完全な表面上の意味的なパート領域（パッチ）を特定します。
入力: 一つの3Dメッシュ（または点群）
処理: 既存の最先端3Dパートセグメンテーション手法（論文ではSAMPart3D [61] を使用）を適用します。この手法は、3D形状の表面上の頂点や面を、あらかじめ定義された、あるいはゼロショットで認識された意味的なカテゴリ（例: 椅子の座面、車のタイヤなど）に基づいてグループ化します。
出力: 元の3D形状の表面における、パートごとのセグメンテーションマスク、あるいはそれに対応する点群データ。図2では、このマスク情報を含む "Overall Mesh & Segmentation Mask" が入力となり、そこから特定のパートに対応する "Segmented Part" が抽出されることを示唆しています。このセグメントは、オクルージョンなどにより一部が見えていない不完全な表面パッチです。

ステップ2： Part Completion (パート補完) with HoloPart

目的: ステップ1で得られた各不完全なパートセグメントに対して、隠れた部分を含む完全なジオメトリを推測し、生成します。これが提案手法HoloPartの核心部分です。
HoloPartの入力:
- 元の全体の3D形状（図2の "Whole Shape" に対応する点群 X）。これは、補完対象のパートが全体の形状の中でどのような文脈にあるかを知るために重要です。
- ステップ1で得られた不完全なパートセグメント（図2の "Segmented Part" に対応する点群 S）。この不完全な情報から完全な形状を生成します。論文では、この点群 S は正規化（Scaled Part）されて処理されることが示されています。
- 元の全体の形状上の、該当パートに対応する表面セグメンテーションマスク情報（図2の "Segmentation Mask" に対応するバイナリマスク M）。全体の形状からパート領域を特定するために使用されます。
HoloPartの処理: HoloPartは、これらの入力を用いて、以下のアテンション機構と拡散モデルを通じてパート補完を行います。
1. 情報のエンコーディング: 入力点群（全体形状 X、パート S）は、位置エンコーディング (PosEmb) を経て特徴量に変換されます。パート点群 S は、サブサンプリングされた点群 S0 も生成します (FPS(S) として)。同様に、全体形状点群 X もマスク M を考慮して処理されます。
2. Context-Aware Attention: サブサンプリングされたパート点群 S0 をクエリ (Q)、全体形状点群 X (マスク M を適用) をキー (K) およびバリュー (V) として、Cross Attention を計算します (式 (5) の C(S0, X))。これにより、パートが属する全体の形状のグローバルなコンテキスト情報が捉えられ、ContextLatents として抽出されます。これは、パートの隠れた部分を全体の形状と矛盾なく補完するために重要です。
3. Local Attention: サブサンプリングされたパート点群 S0 をクエリ (Q)、元の不完全なパート点群 S をキー (K) およびバリュー (V) として、Cross Attention を計算します (式 (6) の C(S0, S))。これにより、入力として与えられた不完全なパート自身の局所的な詳細な形状や位置情報が捉えられ、LocalLatents として抽出されます。これは、既存の可視部分の構造を正確に維持し、新しい形状を生成する際のガイドとなります。
4. Part Diffusion Model (デノイジング): 事前学習済みのDiffusion Transformer (DiT) ベースのデノイジングネットワーク vθ を使用します。このモデルは、ノイズが加えられた完全なパートのラテント表現 zt (トレーニング時) と現在のタイムステップ t を入力として受け取ります。さらに、ステップ2および3で抽出された ContextLatents (co) と LocalLatents (cl) を条件情報として、Cross Attention を通じてモデル内部に注入します。モデルは、これらの条件にガイドされながら、ノイズを除去し、元の完全なパートのラテント表現 z0 (ShapeLatents) を回復するように学習します (式 (7))。推論時には、ランダムなノイズ ϵ から始めて、繰り返しデノイジングを行うことで ShapeLatents を生成します。
5. デコードとメッシュ抽出: 生成された ShapeLatents は、学習済みのデコーダー D を用いて、3D空間のクエリポイント q における占有率（その位置が形状の内部か外部かを示す値）に変換されます (式 (2))。最終的に、得られた占有率情報から、Marching Cubes [39] のような手法を用いて、完全なパートのメッシュが抽出されます。抽出は、該当パートの領域のローカルなバウンディングボックス内で行われ、完全性を保証するために元のセグメントより少し大きめの領域が考慮されます (例えば、バウンディングボックスの1.3倍など)。

最終出力:

ステップ2の処理を各不完全なパートセグメントに対して独立に、あるいはバッチで並行して実行します。
その結果、元の3D形状を構成する、隠れた部分も補完された完全なジオメトリを持つ意味的なパートのセット {p1, p2, ..., pn} が得られます（図2右側の "Complete Part"）。

このように、HoloPartは既存セグメンテーションの結果を利用しつつ、全体の形状コンテキストと局所的な詳細を捉える独自のアテンション機構を持つ拡散モデルを用いることで、複雑なパートのアモーダルな形状補完という難題を解決しています。

Q: 関連手法との比較について詳しく説明してください

A:

提案手法は「3D Part Amodal Segmentation」という新しいタスクを導入しています。これは、既存の「3D Part Segmentation」と「3D Shape Completion」という二つの関連する研究領域の間に位置し、それぞれの限界を克服しようとするものです。

1. 既存の3D Part Segmentation 手法との比較

既存手法の目的と能力:
- 3Dオブジェクトを、その表面上の意味的なパーツに分解します（例：PointNet [47], PointNet++ [48], SAMPart3D [61]など）。
- 特に最近の手法は、2Dの強力なFoundation Model（SAM [25], CLIP [51]など）を活用することで、限られたアノテーションデータでも多様なオブジェクトの表面をセグメント化する能力を高めています。
既存手法の限界:
- 最大の問題点は、「モーダル (modal)」なセグメンテーションであるということです。すなわち、入力3D形状の可視表面パッチのみを識別します（図1(a)）。
- オブジェクトの一部が他の部分に隠れている場合（オクルージョン）、あるいは一体化された3Dモデルの場合、セグメンテーション結果は断片的で、パートの完全な形状を示すものではありません。
- これは、知覚タスクには十分かもしれませんが、ジオメトリ編集、アニメーション、マテリアル割り当てなど、完全なパートジオメトリが必要なコンテンツ作成タスクには不向きです。
HoloPartとの関係性:
- HoloPartは、この既存の3D Part Segmentation手法を前処理ステップとして利用します。まずSAMPart3Dのような手法で初期の不完全な表面セグメントを取得します。
- そして、HoloPartの核となる「Part Completion」段階で、これらの不完全なセグメントを**「アモーダル (amodal)」な、つまり隠れた部分を含む完全なパート形状**へと補完します。
- したがって、HoloPartはセグメンテーション手法そのものを置き換えるのではなく、その出力の不完全性という限界を克服し、タスクの定義を「アモーダル」な領域に拡張するものです。

2. 既存の3D Shape Completion 手法との比較

既存手法の目的と能力:
- 入力3D形状の欠落部分や穴を埋めて、完全な形状を復元します（例：PatchComplete [52], DiffComplete [8], SDFusion [6]など）。
- 近年の手法は、生成モデル（特に拡散モデル）を活用し、より多様で現実的な補完結果を生成できるようになっています。
既存手法の限界:
- これらの手法の多くは、オブジェクト全体を部分的なスキャンなどから補完することに主眼を置いて設計・訓練されています。
- パート補完における課題:
  - 大規模な欠落領域: オブジェクト全体から一つのパートを切り出した場合、そのパートの隠れた部分は、表面セグメントに比べてはるかに広範囲に及ぶことが一般的です。既存の全体形状補完手法は、このようなパート固有の極端に大きな欠落領域を高精度に推測することを苦手とします。
  - 全体の形状コンテキストの欠如: 既存手法は、補完対象の形状（主にオブジェクト全体）の自己整合性や入力部分との連続性を重視しますが、補完対象が「全体の形状の一部であるパート」であることを明示的に考慮していません。パート単体として見れば自然な形状でも、それが元のオブジェクトの特定の箇所に収まる形状として適切であるか、全体の構造と意味的に一貫しているか、といった点は考慮されにくいです。
  - パート固有の詳細と多様性: 様々なカテゴリの全体形状を扱うため、特定のパート（例：機械の複雑な部品、家具の装飾など）が持つ細かい幾何学的構造や、パート間の微妙な関係性を捉えきれないことがあります。
HoloPartの優位性:
- HoloPartは、「パート」のアモーダルな形状補完という、より特化した、そして挑戦的な課題に焦点を当てて設計されています。
- Context-Aware Attention: 既存形状補完手法との最大の差別化ポイントは、この機構です。補完対象である「不完全なパート」の情報だけでなく、そのパートが属する「元の全体の3D形状」の情報を明示的に捉え、補完プロセスに条件付けとして注入します。これにより、生成される完全なパートが、単に単体で自然であるだけでなく、全体の形状と幾何学的・意味的に一貫性を持つように強くガイドされます。例えば、車のタイヤを補完する際に、車全体のサイズや形状に合わせて適切な大きさ・形状のタイヤを生成するといったことが可能になります。
- Local Attention: 不完全なパートの可視部分の局所的な詳細を精密に捉えることに注力し、既存情報の忠実な維持と、そこからのスムーズな補完を実現します。
- Part Diffusion Modelの最適化: 大規模データでの事前学習による強力な3D生成事前分布を基盤としつつ、パートデータセットでのファインチューニングと、Context-Aware AttentionおよびLocal Attentionによるパート補完に特化した条件付けを行うことで、データが限られていても高品質なパート形状を生成できるようにモデルを適応させています。
- 実験による実証: 論文では、ABO [9] や PartObjaverse-Tiny [61] といったパートレベルのアノテーションを持つデータセットで、PatchComplete [52], DiffComplete [8], SDFusion [6] といったSOTAの形状補完手法やファインチューニングVAEを比較しています。結果（表1, 2）は、HoloPartがChamfer Distance, IoU, F-Score, Success Rateといったすべての評価指標でこれらの既存手法を大きく上回ることを示しており、特に複雑なパートや、隠れた部分が大きいパート（補完が難しいケース）でその差が顕著です（図3, 4, 14, 15）。これは、HoloPartがパート補完という特定の課題に対して、既存手法よりもはるかに高い能力を持つことを明確に示しています。

まとめ

HoloPartは、既存の3D Part Segmentation手法の「表面パッチしか得られない」という限界と、既存の3D Shape Completion手法の「主に全体形状の補完に特化しており、パート固有の課題（大規模欠落、全体コンテキストとの整合性）に対応しきれない」という限界の両方を克服します。Context-Aware Attentionによって全体の形状文脈を明示的に考慮するという独自のアプローチにより、不完全な表面セグメントから、隠れた部分を含む完全で、かつ全体の形状と整合性の取れたセマンティックパートを生成することを可能にしています。これは、3Dコンテンツ生成・編集・理解のための新しい基盤を築くものです。

Q:提案手法の限界と今後の課題はなんですか？

A:

現在の主な限界：入力となる表面マスクの品質への依存性
- 提案手法HoloPartのパイプラインは、まず既存の3Dパートセグメンテーション手法によって得られた**不完全な表面セグメント（マスク）**を「プロンプト」または入力として受け取ります。
- HoloPart自体は強力なパート補完能力を持っていますが、この入力となる表面マスクの品質や適切さが、最終的に生成される完全なパート形状の質に直接影響します。
- もし、セグメンテーションの精度が低い、あるいは元のオブジェクトに対するマスクの割り当てが意味的に不適切である場合、たとえHoloPartが最善を尽くしても、ユーザーが期待するような高品質で完全なパート形状を生成できない可能性があります。これは、パイプラインの最初のステップに性能が制約を受けることを意味します。
今後の課題と展望：データ生成ツールとしての活用と、次世代モデルの学習
- 上記の限界を踏まえ、論文では今後のより有望な研究方向として、HoloPartを高品質なデータ生成ツールとして活用することを提案しています。
- つまり、HoloPartを用いて、不完全な表面マスクから完全なパート形状を生成するという現在のタスクを遂行することで、大量の**「完全な3D形状」とその「完全なパート分解（アモーダルなパートジオメトリ）」のペア**を含むデータセットを構築します。
- このようにして生成された、より大規模で多様な「3Dパート認識形状」データを用いて、**ゼロから新しい「パート認識生成モデル」や「パート編集モデル」**を学習することが考えられます。
- このような新しいモデルは、おそらく現在の2段階パイプラインとは異なり、最初からパート構造やアモーダルな性質を考慮したエンドツーエンドでの生成や編集が可能になるかもしれません。これにより、入力マスクの品質に依存する現在の限界を克服し、さらに柔軟で強力な3Dコンテンツ作成ツールが実現する可能性があります。

要約すると、HoloPartの現在の限界は、その性能が前段のセグメンテーション結果の質に依存する点にあります。この限界を乗り越え、さらなる進歩を遂げるためには、HoloPart自体を高品質なデータセット構築に利用し、そのデータに基づいてより高度な、おそらくエンドツーエンドの「パート認識」機能を備えた3D生成・編集モデルを開発することが今後の重要な課題であると位置づけられています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up