1. 概要
大規模言語モデル(LLMs)からの強力なエキスパートミックス(MoE)のアイデアを取り入れ、モデルの容量と柔軟性のバランスを調整して、汎化能力を向上させたNeRF。
2. 新規性
既存のNeRFは
- シーンに過剰に適合する傾向があり、シーンを再構築することに重点を置いている。
- シーンごとに再学習が必要なため、実用的には制約がある。
- 大きなモデルサイズが必要でありながら、特定のシーンに合わせる必要がある。
これらに対処するために、Mixture-of-Experts(MoE)の概念を導入し、consistency expertとspartial smoothness expretを組み合わた。
3. 実現方法
左の図では、対象の視点内の各光線について、ビュー変換器を通過することで、ソースのビューから複数のビュー特徴を集約したサンプル点を作成する。右の図では、ビュー変換器にMoE層を埋め込む。ポイントトークンは、ルーターで選択されたexpartと提案されるexpertの両方によって処理され、クロスシーンの一貫性を確保する。4つのMoE埋め込みトランスフォーマーブロックと1,296の専門家組み合わせを使用して、十分に大きく多様なカバレッジを提供する。
4. 結果
クロスシーンでのビュー合成において、ゼロショットおよびフューショットの設定の両方で高い性能を示し、最先端の結果を実証した。