はじめに
最近、3D系の特定の技術情報や、フィジカルAI関連の技術情報を、見かけた際に少しメモしています。
それら技術について、最近見かけてメモしたものを、少し情報を付与した形で記録しておきたくなり、自分用のメモ的な記事として以下を書きました。
技術情報メモ
MeshSplatting
1つ目は「MeshSplatting」です。以下を見ると、コンピュータービジョン系の学会 CVPR で、オーラル発表が行われるものでもあるようです。
●MeshSplatting
https://meshsplatting.github.io/
●meshsplatting/mesh-splatting
https://github.com/meshsplatting/mesh-splatting
上記をざっくり見てみたところ、「3D Gaussian Splatting(3DGS)」のような見た目ベースの描画ではなく、メッシュ形式で出力できるようにした手法になるようです。また、3DGS の高品質・高速レンダリングという利点も持っているようです。
メッシュ形式での出力になり、Unity・Blender などでそのまま使えるデータになるようです。そして、物理演算、レイトレーシングなどへに直接対応できるようです。
TripoSplat
次は「TripoSplat」です。
●TripoSplat: Generative 3D Gaussians with Learned Density Control
https://www.tripo3d.ai/research/triposplat
これは、Tripo3D(TripoAI)が開発した、1枚の画像をもとに 3D Gaussian を生成するモデルのようです。TripoSplat の出力は、3D Gaussian Splatting に特化したものになっているようです。
プロジェクトページには、以下のリポジトリやデモページなどへのリンクも掲載されています。
●VAST-AI-Research/TripoSplat: TripoSplat converts a single 2D image into high-quality and variable number of 3D Gaussians, developed by TripoAI.
https://github.com/VAST-AI-Research/TripoSplat
●TripoSplat - a Hugging Face Space by VAST-AI
https://huggingface.co/spaces/VAST-AI/TripoSplat
デモページは手軽に試せそうだったので、前に X でポストしていた以下の画像の一部を入力で使ってみました。
試した結果、15秒くらいで以下のように 3Dのデータが生成されました。
写真では見えない部分も、何らか模様などがつけられているようでした。
Cosmos 3
以下は、NVIDIA がリリースしたフィジカルAI向けの、大規模な World Foundation Model の「Cosmos 3」です。
●Cosmos 3 — Cosmos Lab
https://research.nvidia.com/labs/cosmos-lab/cosmos3/
Cosmos 3 は、物理世界を理解したり、予測を行ったり、行動を生成したりすることができるモデルになるようです。プロジェクトページには、以下のモデルカードのページや、GitHub のリポジトリなどのリンクが掲載されています。
●NVIDIA/cosmos: NVIDIA Cosmos is an open platform of world models, datasets, and tools that enables developers to build Physical AI for robots, autonomous vehicles, smart infrastructure, and more.
https://github.com/NVIDIA/cosmos
●Cosmos3 - a nvidia Collection
https://huggingface.co/collections/nvidia/cosmos3
●Physical AI with World Foundation Models | NVIDIA Cosmos
https://www.nvidia.com/en-us/ai/cosmos/
GitHub のリポジトリを見ると、「Input and Output」という内容で、以下の表が掲載されています。テキストや画像だけでなく、入力でアクションを含む内容を扱えたり、
出力で音なども扱えたりするようです。
その下の「ユースケース」の部分の「Generator」と「Reasoner」では、それぞれ以下のような表も掲載されています。
Generator のほうを見てみると、「現在の画像・アクションを入力として、未来の状態を予測・生成する」ということや、「テキストと画像から、ロボットが取るべき行動を出力する」ということなども行えるようです。また、Reasoner のほうを見てみると、「状況を理解して、次に起こりそうなことや、取るべき行動を予測する」ということなども行えるようです。
LocateAnything
次は、NVIDIA の「LocateAnything」です。
●LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
https://research.nvidia.com/labs/lpr/locate-anything/
上記の内容をざっくり見ると、LocateAnything は「Vision Languageベースの物体位置の特定」を行うものになるようです。
従来の VLM(Vision Language Model)で、画像と自然言語の指示により物体の位置を示すバウンディングボックスを出力するということをやった場合、バウンディングボックスの座標が逐次生成されるため処理が遅い、などといった問題があったとのことです。それに対して LocateAnything は、各バウンディングボックスをある 1単位として扱うことで、並列化が可能になっているようです(それにより、スループットが向上しているとのこと)。
また、従来の方法では多数の物体を検出するとさらに処理が遅くなってしまうところを、LocateAnything では高速に処理できるようです。
上記のプロジェクトページを見ると、Hugging Face上でモデルが公開されていたり、それと別にデモページも用意されているようです。
●nvidia/LocateAnything-3B · Hugging Face
https://huggingface.co/nvidia/LocateAnything-3B
●LocateAnything - a Hugging Face Space by nvidia
https://huggingface.co/spaces/nvidia/LocateAnything













