Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer with Mixture-of-View-Experts

Posted at 2023-11-22

1. 概要

大規模言語モデル（LLMs）からの強力なエキスパートミックス（MoE）のアイデアを取り入れ、モデルの容量と柔軟性のバランスを調整して、汎化能力を向上させたNeRF。

2. 新規性

既存のNeRFは

シーンに過剰に適合する傾向があり、シーンを再構築することに重点を置いている。
シーンごとに再学習が必要なため、実用的には制約がある。
大きなモデルサイズが必要でありながら、特定のシーンに合わせる必要がある。

これらに対処するために、Mixture-of-Experts（MoE）の概念を導入し、consistency expertとspartial smoothness expretを組み合わた。

3. 実現方法

左の図では、対象の視点内の各光線について、ビュー変換器を通過することで、ソースのビューから複数のビュー特徴を集約したサンプル点を作成する。右の図では、ビュー変換器にMoE層を埋め込む。ポイントトークンは、ルーターで選択されたexpartと提案されるexpertの両方によって処理され、クロスシーンの一貫性を確保する。4つのMoE埋め込みトランスフォーマーブロックと1,296の専門家組み合わせを使用して、十分に大きく多様なカバレッジを提供する。

4. 結果

クロスシーンでのビュー合成において、ゼロショットおよびフューショットの設定の両方で高い性能を示し、最先端の結果を実証した。

Paper URL: https://openaccess.thecvf.com/content/ICCV2023/papers/Cong_Enhancing_NeRF_akin_to_Enhancing_LLMs_Generalizable_NeRF_Transformer_with_ICCV_2023_paper.pdf

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up