Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details(Tencent, 2025)
3行要約
- Hunyuan3D 2.5は、高精細で詳細なテクスチャ付き3Dアセットを生成するための、堅牢な3D拡散モデルスイートです。
- シェイプ生成においては、新しい基盤モデルLATTICEを導入し、大規模なデータセットと100億パラメータのモデルサイズで、シャープかつ詳細でクリーンな3D形状を実現しました。
- テクスチャ生成においては、Hunyuan3D 2.0のマルチビューアーキテクチャを拡張し、物理ベースレンダリング(PBR)に対応することで、より現実的で高品質なマテリアルマップ生成を可能にしました。
Q:何が問題で、それをどのように解決したのか、わかりやすく説明してください
A:
この論文では、高忠実度な3Dアセット生成、特に複雑な形状と写実的なテクスチャの生成における既存の課題を解決することを目指しています。

具体的に、以下の2つの主要な問題点と、それに対するHunyuan3D 2.5の解決策が示されています。
1. 形状生成(Shape Generation)における問題と解決策
問題点:
既存の3D形状生成モデルは、複雑なオブジェクトの微細なディテールを生成する際に限界があり、同時に滑らかな表面とシャープなエッジを両立させることが困難でした(図2を参照)。生成された形状と手作業で作成された形状の間には、依然として大きな隔たりがありました。
解決策:
Hunyuan3D 2.5では、新しい形状基盤モデル「LATTICE」を導入しました。
- 大規模スケーリング: LATTICEは、スケーリングされた高品質なデータセット、大規模なモデルサイズ、そして計算資源を用いて訓練されました。最大のモデルは100億パラメータに達します。
- 高忠実度なディテールと滑らかな表面: このスケーリングにより、モデルはシャープで詳細な3D形状を生成し、入力画像との正確なアライメントを保ちつつ、メッシュ表面はクリーンで滑らかに保たれます(図4を参照)。これにより、生成された3D形状と手作業の間のギャップが大幅に縮小されました。
2. テクスチャ生成(Texture Generation)における問題と解決策
問題点:
高品位なテクスチャ、特に物理ベースレンダリング(PBR)に対応するマテリアルの生成には以下の課題がありました。
- 多視点の一貫性: 従来のマルチビュー拡散ベースの手法では、テクスチャを統合・ベイクする際に、一貫性のないマルチビュー画像が原因でアーティファクトやシーム(継ぎ目)が生じる可能性がありました。
- PBRマテリアルの不足: 写実的な3Dアセット生成には、従来のRGBテクスチャだけでなく、PBRマテリアル(アルベド、ラフネス、メタリックなど)の生成が不可欠でしたが、オープンソースコミュニティには適切なソリューションが不足していました。
解決策:
Hunyuan3D 2.5では、Hunyuan3D 2.0のPaintモデルを拡張し、新しいマテリアル生成フレームワークを導入しました。
-
PBRマテリアルの直接生成: 原理に基づいたBRDF(Bidirectional Reflectance Distribution Function)モデルに従い、アルベド(
albedo)、メタリック・ラフネス(MR)マップを多視点から同時に生成します。これにより、3Dアセットの表面反射特性を正確に記述し、幾何学的微細表面分布をシミュレートすることが可能になりました。 -
マルチチャネルマテリアル生成: 学習可能な埋め込み(
learnable embeddings)を用いて、アルベドとMRの3つのマテリアルマップを独立してモデル化します。 -
空間的一貫性の確保: マルチチャネルの不整合を防ぐため、注意マスク(
attention mask)を複数のチャネル間で共有するデュアルチャネル注意メカニズム(dual-channel attention mechanism)を導入しました。特に、ベースカラー(RGB)チャネルから計算された注意マスクを他のチャネルにも適用することで、空間的なコヒーレンスを維持します。これは、以下の数式で示されます。
$$
M_{\text{attn}} = \text{Softmax}\left(\frac{Q_{\text{albedo}} K_{\text{ref}}^T}{\sqrt{d}}\right)
$$$$
z_{\text{new}}^{\text{albedo}} = z^{\text{albedo}} + \text{MLP}_{\text{albedo}} [M_{\text{attn}} \cdot V_{\text{albedo}}]
$$$$
z_{\text{new}}^{\text{MR}} = z^{\text{MR}} + \text{MLP}_{\text{MR}} [M_{\text{attn}} \cdot V_{\text{MR}}]
$$さらに、マテリアル特性と照明成分の分離を強制するために、照明不変一貫性損失(
illumination-invariant consistency loss)を導入しました。
-
デュアルフェーズ解像度強化戦略: テクスチャとジオメトリのアライメントを向上させるため、デュアルフェーズの解像度強化戦略を採用しました。まず、従来のマルチビュー学習で基本的なテクスチャとジオメトリの対応を確立し、次に「ズームイン学習戦略(
zoom-in training strategy)」を用いて、高解像度での学習に伴うメモリ制約を回避しつつ、高品質なディテールを捉えることを可能にしました。
これらの技術革新により、Hunyuan3D 2.5は、形状とテクスチャの両面で、より忠実で詳細な3Dアセットの生成を実現しています。
Q:提案手法の処理の流れを順序だてて説明してください
A:
Hunyuan3D 2.5は、高忠実度な3Dアセットを生成するための2段階のパイプラインを採用しています。このパイプラインは、まず3Dオブジェクトの形状を生成し、次にその形状に基づいたテクスチャとマテリアルを生成するという流れで構成されています。
以下に、その処理の流れを順序立てて説明します。
Hunyuan3D 2.5の処理フロー
全体像(図3: Overview of Hunyuan3D 2.5 pipeline)
- Image Preprocessing(画像前処理): 入力画像を処理します。
- Shape Generation(形状生成): 3Dメッシュを生成します。
- Mesh Postprocessing(メッシュ後処理): 生成されたメッシュからテクスチャに必要な情報を抽出します。
- Texture Generation(テクスチャ生成): テクスチャとPBRマテリアルを生成します。
- Output Mesh(出力メッシュ): 最終的なテクスチャ付き3Dメッシュが出力されます。
1. Image Preprocessing(画像前処理)
この最初のステップでは、ユーザーが提供する入力画像(単一画像)が処理されます。
- 背景の除去: 画像から不要な背景が削除されます。
- 適切なリサイズ: モデルの入力要件に合わせて画像サイズが調整されます。
2. Shape Generation(形状生成)
前処理された画像は、この段階で3Dメッシュの生成に使用されます。
- モデル: 新しく導入された大規模な形状基盤モデル「LATTICE」が使用されます。LATTICEは、単一画像または4枚のマルチビュー画像を入力として受け取ることができます。
-
学習と能力: LATTICEは、大規模かつ高品質な3Dデータセットを用いて、100億パラメータ規模のモデルサイズで学習されています。このスケーリングにより、モデルは以下の能力を発揮します。
- 極めて詳細な形状: 指の数、自転車のホイールパターン、シーン内の小さなオブジェクトなど、手作業に匹敵するレベルの微細なディテールを生成します。
- 滑らかな表面とシャープなエッジ: 複雑なオブジェクトであっても、滑らかでクリーンな表面を保ちつつ、シャープなエッジを生成するバランスの取れた能力を持ちます。
- 出力: テクスチャが付与されていない3Dメッシュ(形状のみ)が生成されます。
3. Mesh Postprocessing(メッシュ後処理)
形状が生成された後、この段階でテクスチャ生成に必要な追加情報が抽出されます。
- 法線マップ(Normal Map)の抽出: メッシュの表面の向きを示す法線情報が抽出されます。
- UVマップ(UV Map)の生成: メッシュの3D表面を2Dテクスチャ空間に展開するためのUV座標が生成されます。
- CCM(Camera Coordinate Map)の生成: カメラ座標情報が抽出されます。
これらの情報は、次のテクスチャ生成ステップの幾何学的条件として利用されます。
4. Texture Generation(テクスチャ生成)
メッシュ後処理で得られた情報と、必要に応じて参照画像を基に、テクスチャとPBRマテリアルが生成されます。
- モデル: Hunyuan3D 2.0および2.1のテクスチャ生成モデルを拡張した、新しいマテリアル生成フレームワークが使用されます。
- 入力: 法線マップとCCM(3Dメッシュからレンダリングされた幾何学的条件)、および参照画像が入力されます。
-
PBRマテリアルの生成: 以下の3つのPBRマテリアルマップを同時に生成します。
- アルベド(Albedo): 物体の固有色を示します。
- MR(Metallic-Roughness): メタリック(金属度)とラフネス(粗さ)を組み合わせたチャネルで、表面の反射特性を定義します。
-
主要な技術:
- 3D-aware RoPE: 以前のバージョンから継承された「3D-aware Rotary Positional Embedding」により、異なる視点間での一貫性が強化され、シームレスなテクスチャマップ生成に貢献します。
-
マルチチャネルマテリアル生成: アルベドとMRに対し、それぞれ独立した学習可能な埋め込み(
learnable embeddings)が導入され、クロスアテンション層を通じて各チャネルに注入されます。 -
デュアルチャネル注意メカニズム(Dual-Channel Attention Mechanism): 異なるマテリアルチャネル間での空間的な不整合を避けるため、アテンションマスク(
attention mask)が複数のチャネル間で共有されます。特に、ベースカラー(albedo)チャネルから計算されたアテンションマスクがMRチャネルの参照アテンションをガイドするために使用されます。これにより、空間的なコヒーレンスが維持されます。 - 照明不変一貫性損失(Illumination-Invariant Consistency Loss): 学習中にこの損失を適用することで、マテリアル特性と照明成分の分離を強制し、より正確なマテリアル生成を促します。
-
デュアルフェーズ解像度強化戦略(Dual-Phase Resolution Enhancement Strategy): テクスチャとジオメトリのアライメントを段階的に向上させます。
- フェーズ1: 6視点512x512画像を用いた従来のマルチビュー学習で、基本的なマルチビューの一貫性とテクスチャ-ジオメトリ対応を確立します。
-
フェーズ2: 「ズームイン学習戦略(
zoom-in training strategy)」を導入し、参照画像とマルチビュー生成画像のランダムなズームインを通じて、高解像度のディテールを学習します。これにより、高解像度マルチビュー画像での直接学習に伴う大きなメモリ要件を回避します。
-
推論時の効率性: 推論時には、最大768x768の解像度でマルチビュー画像が生成され、
UniPCサンプラーによって効率的に高速化されます。
5. Output Mesh(出力メッシュ)
最終的に、生成されたPBRマテリアルマップが元の3Dメッシュに適用され、高忠実度で詳細なテクスチャ付き3Dアセットが完成します。
Q:関連手法との比較について詳しく説明してください
A:
Hunyuan3D 2.5は、その性能を評価するために、形状生成とテクスチャ生成の両面で、幅広い既存手法との比較を行っています。定量的な評価指標に加えて、視覚的な比較やユーザー調査も実施し、その優位性を示しています。
1. 形状生成(Shape Generation)における比較
競合手法:
- オープンソース: Michelangelo (Zhao et al., 2024), Craftsman 1.5 (Li et al., 2024b), Trellis (Xiang et al., 2024), Hunyuan3D 2.0 (Zhao et al., 2025)
- クローズドソース: Commercial Model 1, Commercial Model 2
評価指標:
生成されたメッシュの品質を評価するために、以下の指標が使用されました。
- ULIP-T (↑) および Uni3D-T (↑): 生成されたメッシュと、Vision-Language Model (Chen et al., 2024b) によって合成された画像プロンプトとのテキスト類似度を測定します。数値が高いほど良いことを示します。
- ULIP-I (↑) および Uni3D-I (↑): 生成されたメッシュと入力画像との類似度を測定します。数値が高いほど良いことを示します。
比較結果 (表1および図6):
- 数値的な優位性: 表1に示されるように、Hunyuan3D 2.5はULIP-T、Uni3D-T、Uni3D-Iにおいて最も優れたスコアを達成しています。ULIP-Iでも既存の最先端手法であるHunyuan3D 2.0と遜色のない結果を示しています。
- 視覚的な優位性: 図6の視覚的な比較では、数値指標では完全に捉えきれないHunyuan3D 2.5の明確な優位性が示されています。他のオープンソースおよび商用モデルと比較して、Hunyuan3D 2.5はよりシャープで詳細な形状を生成し、メッシュ表面がクリーンで滑らかであることが明確に見て取れます。論文では、この視覚的な品質が、生成された形状と手作業で作成された形状とのギャップを大幅に縮めていると強調しています。特に、複雑なオブジェクトの細部の忠実度において、他手法よりも一貫して優れた性能を発揮しています。
2. テクスチャ生成(Texture Generation)における比較
競合手法:
- 定量的比較(テキスト/画像条件付き手法): Text2Tex (Chen et al., 2023a), SyncMVD (Liu et al., 2024a), Paint-it (Youwang et al., 2024), Paint3D (Zeng et al., 2024a), TexGen (Yu et al., 2024)
- 定性的比較(クローズドソース手法): Commercial Model 1, Commercial Model 2
評価指標:
生成されたテクスチャの品質を評価するために、以下の指標が使用されました。
- CLIP-FID (↓) および FID (↓): 生成されたテクスチャとグラウンドトゥルース(正解)の間の類似度を測定します。数値が低いほど良いことを示します。
- CMMD (↓): CLIP Maximum-Mean Discrepancy。生成されたテクスチャのディテールの多様性と豊かさを評価します。数値が低いほど良いことを示します。
- CLIP-I (↑): CLIP-Image Similarity。生成されたテクスチャが入力画像とどれだけ意味的に一致しているかを評価します。数値が高いほど良いことを示します。
- LPIPS (↓): Learned Perceptual Image Patch Similarity。生成されたテクスチャとグラウンドトゥルースの間の知覚的な類似度を測定します。数値が低いほど良いことを示します。
比較結果 (表2、図7、図8):
- 数値的な優位性 (表2): Hunyuan3D 2.5は、比較対象となった全ての定量的指標(CLIP-FID, FID, CMMD, CLIP-I, LPIPS)において、最先端の手法を上回る結果を達成しています。これは、提案手法が画像条件付きおよびテキスト条件付きの両方のクラスにおいて、テクスチャ生成の品質、多様性、入力とのアライメントで最高のパフォーマンスを発揮していることを示しています。
- 視覚的な優位性 (図7): PBRマテリアル生成に関して、Hunyuan3D 2.5は商用モデルと比較して顕著な改善を示しています。他の競合モデルは、正確なMR(メタリック・ラフネス)値の推定や、入力画像に内在する照明効果のアルベド成分からの分離に課題を抱えていることが指摘されています。Hunyuan3D 2.5は、これらの課題を克服し、より写実的で物理的に正確なPBRマテリアルを生成できることを視覚的に示しています。
- ユーザー調査 (図8): 生成されたテクスチャモデルに対する人間の好みを評価するユーザー調査が実施されました。この調査では、Hunyuan3D 2.5が3つの最新の商用モデルと比較して、有意に優れた結果を示しました。特に、画像-3Dタスクにおいては、Hunyuan3D 2.5が72%という高い勝率を達成し、これはCommercial Model 1の9倍に相当します。この結果は、提案手法が客観的な指標だけでなく、人間の視覚的な判断においても強く支持されていることを裏付けています。
総じて、Hunyuan3D 2.5は、形状生成における細部の忠実度と表面の品質、そしてテクスチャ生成におけるPBRマテリアルの写実性と多視点一貫性の両面で、既存のオープンソースおよびクローズドソースの手法を大きく上回る性能を示しており、3Dアセット生成の分野における最先端技術を押し進めるものです。
Q:何提案手法の限界と今後の課題はなんですか?
A:
Hunyuan3D 2.5は非常に優れた性能を示していますが、論文の記述や一般的な生成モデルの課題から、いくつかの限界と今後の課題を推測することができます。
提案手法の限界
-
計算リソースの要求の高さ:
- 論文では、形状生成モデルLATTICEが「スケーリングされた高品質データセット、モデルサイズ、計算資源を用いて訓練され、最大のモデルは100億パラメータに達する」と明記されています。これはモデルの性能の源泉である一方で、研究開発や実用化において、大規模な計算リソース(高性能GPU、大規模ストレージ、電力など)が必要であることを意味します。小規模な研究機関や個人がこのスケールでモデルを訓練・運用することは困難であり、技術の普及における障壁となる可能性があります。
- 論文では、形状生成モデルLATTICEが「スケーリングされた高品質データセット、モデルサイズ、計算資源を用いて訓練され、最大のモデルは100億パラメータに達する」と明記されています。これはモデルの性能の源泉である一方で、研究開発や実用化において、大規模な計算リソース(高性能GPU、大規模ストレージ、電力など)が必要であることを意味します。小規模な研究機関や個人がこのスケールでモデルを訓練・運用することは困難であり、技術の普及における障壁となる可能性があります。
-
推論速度の最適化の余地:
- 形状生成において「効率性を確保するため、ガイダンスとステップ蒸留技術を用いて推論時間を削減した」とありますが、100億パラメータのモデルで、複雑な3Dアセットを高品質で生成する際の推論時間が、リアルタイムアプリケーションや大規模なコンテンツ制作パイプラインにおいて十分に高速であるかは、まだ課題となる可能性があります。論文中では具体的な推論時間は明記されていません。
- 形状生成において「効率性を確保するため、ガイダンスとステップ蒸留技術を用いて推論時間を削減した」とありますが、100億パラメータのモデルで、複雑な3Dアセットを高品質で生成する際の推論時間が、リアルタイムアプリケーションや大規模なコンテンツ制作パイプラインにおいて十分に高速であるかは、まだ課題となる可能性があります。論文中では具体的な推論時間は明記されていません。
-
完璧なテクスチャ-ジオメトリ連携の難しさ:
- テクスチャ生成において、「高ポリゴンジオメトリに対して特に、正確なテクスチャ-ジオメトリ連携を達成することは依然として大きな課題である」と述べ、それを解決するためにデュアルフェーズ解像度強化戦略を導入しています。これは大幅な改善をもたらしますが、特に極めて複雑なトポロジーや微細な隙間を持つ形状に対して、常に完璧な連携が保証されるわけではない可能性があります。
- PBRマテリアル生成において「照明不変一貫性損失」によりマテリアル特性と照明の分離を強制していますが、現実世界の複雑な照明条件下で完全に理想的な分離を実現することは極めて困難であり、一部の「焼き付き(baked-in)」のような影響が残る可能性も考えられます。
-
評価指標の限界と人間による評価の重要性:
- 形状生成の評価において、「ULIP-TやUni3D-Tといった指標がモデルの能力を完全に反映しているわけではない」と著者自身が認めています。これは、数値指標だけでは捉えきれない視覚的な品質やディテールが存在することを示しており、客観的な評価手法のさらなる発展が必要であることを示唆しています。そのため、ユーザー調査が重要な補完的役割を果たしていますが、その規模や多様性には限界があります。
- 形状生成の評価において、「ULIP-TやUni3D-Tといった指標がモデルの能力を完全に反映しているわけではない」と著者自身が認めています。これは、数値指標だけでは捉えきれない視覚的な品質やディテールが存在することを示しており、客観的な評価手法のさらなる発展が必要であることを示唆しています。そのため、ユーザー調査が重要な補完的役割を果たしていますが、その規模や多様性には限界があります。
-
生成されるアセットの多様性と制御性:
- 高い忠実度と詳細さを強調していますが、極めて多様なスタイル、抽象的な概念、あるいは特定のアーティストの意図をどの程度反映できるかについては、さらなる検証が必要かもしれません。特に、生成後の微調整や、特定の意味を持つ部分の編集といった細やかな制御については、本論文の範囲外であり、今後の課題となります。
今後の課題
-
リアルタイム生成とインタラクティブ性:
- 現在のパイプラインは、高品質なアセットを生成するものの、インタラクティブな3Dモデリングツールやゲーム開発環境に直接統合し、リアルタイムでの形状やテクスチャの変更・生成を可能にするには、さらなる推論速度の向上が不可欠です。
- 現在のパイプラインは、高品質なアセットを生成するものの、インタラクティブな3Dモデリングツールやゲーム開発環境に直接統合し、リアルタイムでの形状やテクスチャの変更・生成を可能にするには、さらなる推論速度の向上が不可欠です。
-
多角的な入力モダリティとより高度な制御:
- 現在は単一の画像入力に焦点を当てていますが、将来的にはスケッチ、ラフな3Dモデル、音声指示、複数の参照画像など、より多様な入力モダリティに対応し、ユーザーがより直感的に生成プロセスを制御できるような機能が求められます。特に、生成される3Dアセットのセマンティックな部分ごとの制御や編集は、実用性を高める上で重要な方向性です。
- 現在は単一の画像入力に焦点を当てていますが、将来的にはスケッチ、ラフな3Dモデル、音声指示、複数の参照画像など、より多様な入力モダリティに対応し、ユーザーがより直感的に生成プロセスを制御できるような機能が求められます。特に、生成される3Dアセットのセマンティックな部分ごとの制御や編集は、実用性を高める上で重要な方向性です。
-
より複雑なシーン・環境生成への拡張:
- 現在は単一の3Dアセット生成が中心ですが、将来的には複数のオブジェクトから構成される複雑なシーン全体の生成、あるいは広大な環境のプロシージャル生成といった、より大規模なスケールへの応用が課題となります。これには、オブジェクト間の関係性、衝突判定、物理的な相互作用などを考慮したモデリングが必要です。
- 現在は単一の3Dアセット生成が中心ですが、将来的には複数のオブジェクトから構成される複雑なシーン全体の生成、あるいは広大な環境のプロシージャル生成といった、より大規模なスケールへの応用が課題となります。これには、オブジェクト間の関係性、衝突判定、物理的な相互作用などを考慮したモデリングが必要です。
-
生成アセットの法線・物理特性のシミュレーションへの応用:
- PBRマテリアルの生成は大きな進歩ですが、生成された3Dアセットが、例えばシミュレーション環境で物理的に正確に振る舞うための、より詳細な物理特性(質量、摩擦係数、剛性など)や、変形可能なメッシュ生成への応用も考えられます。
- PBRマテリアルの生成は大きな進歩ですが、生成された3Dアセットが、例えばシミュレーション環境で物理的に正確に振る舞うための、より詳細な物理特性(質量、摩擦係数、剛性など)や、変形可能なメッシュ生成への応用も考えられます。
-
データセットの継続的な拡張と多様性確保:
- モデルの性能は訓練データセットの質と量に大きく依存します。今後の課題として、さらに多様なオブジェクトカテゴリ、複雑なトポロジー、異なるスタイル、文化的なバリエーションを網羅する高品質な3Dアセットデータセットの継続的な構築が挙げられます。
これらの課題は、Hunyuan3D 2.5が切り開いた道の延長線上にあるものであり、3Dコンテンツ生成のさらなる自動化と普及に向けた重要な研究方向となるでしょう。






