TRELLIS.2 je open-source výzkumný projekt od Microsoftu pro převod obrázku na 3D model. Zaměřuje se na generování plně texturovaných PBR assetů ve vysokém rozlišení a podle autorů spojuje generování geometrie i materiálů do jednoho pipeline.
TRELLIS.2 je image-to-3D model se 4 miliardami parametrů. Vstupem je obrázek a výstupem 3D asset s texturami a PBR materiály, který lze dál exportovat například do GLB.
Projekt není jen paper nebo demo. Repozitář na GitHubu obsahuje inference kód, webové demo, pretrained checkpointy i trénovací kód. Na oficiálním webu autoři uvádějí i demo na Hugging Face a model TRELLIS.2-4B.
Základ projektu tvoří reprezentace O-Voxel, kterou autoři popisují jako field-free sparse voxel structure. Cílem je zachytit geometrii i vzhled objektu bez omezení typických pro přístupy založené čistě na iso-surface field reprezentaci.
TRELLIS.2 používá 3D VAE se 16x prostorovou kompresí. Podle autorů to umožňuje udržet latentní reprezentaci dostatečně kompaktní pro generování ve velkém měřítku a přitom s malou ztrátou kvality.
Web projektu výslovně zmiňuje podporu otevřených povrchů, non-manifold geometrie i vnitřních uzavřených struktur. To je důležité hlavně u objektů, které nejdou dobře popsat jako jednoduchý uzavřený povrch.
Projekt neřeší jen tvar. TRELLIS.2 modeluje i povrchové atributy jako base color, roughness, metallic a opacity. Výsledkem mají být assety vhodnější pro realistický rendering a další práci ve 3D nástrojích.
TRELLIS.2-4B pro image-to-3D generováníGLBPodle README v GitHub repozitáři je projekt v současné době testovaný na Linuxu a vyžaduje NVIDIA GPU alespoň s 24 GB VRAM. Doporučený je CUDA Toolkit 12.4, Conda a Python 3.8 nebo novější.
Základní instalace vypadá takto:
git clone -b main https://github.com/microsoft/TRELLIS.2.git --recursive cd TRELLIS.2 . ./setup.sh --new-env --basic --flash-attn --nvdiffrast --nvdiffrec --cumesh --o-voxel --flexgemm
TRELLIS.2 dává smysl hlavně tehdy, když je potřeba generovat 3D objekty z referenčního obrázku a zároveň mít použitelný výstup pro další rendering nebo úpravy. Zajímavý je hlavně pro workflow kolem 3D assetů, prototypování objektů, experimentů s image-to-3D a obecně pro výzkum generativní 3D grafiky popsaný i v paperu Native and Compact Structured Latents for 3D Generation.