Toto je starší verze dokumentu!
TRELLIS.2
TRELLIS.2 je open-source výzkumný projekt od Microsoftu pro převod obrázku na 3D model. Zaměřuje se na generování plně texturovaných PBR assetů ve vysokém rozlišení a podle autorů spojuje generování geometrie i materiálů do jednoho pipeline.
Co to je za projekt
TRELLIS.2 je image-to-3D model se 4 miliardami parametrů. Vstupem je obrázek a výstupem 3D asset s texturami a PBR materiály, který lze dál exportovat například do GLB.
Projekt není jen paper nebo demo. Repozitář obsahuje inference kód, webové demo, pretrained checkpointy i trénovací kód. Na oficiálním webu autoři uvádějí i Hugging Face demo a model TRELLIS.2-4B.
Jak je projekt postavený
O-Voxel reprezentace
Základ projektu tvoří reprezentace O-Voxel, kterou autoři popisují jako field-free sparse voxel structure. Cílem je zachytit geometrii i vzhled objektu bez omezení typických pro přístupy založené čistě na iso-surface field reprezentaci.
Sparse Compression VAE
TRELLIS.2 používá 3D VAE se 16x prostorovou kompresí. Podle autorů to umožňuje udržet latentní reprezentaci dostatečně kompaktní pro generování ve velkém měřítku a přitom s malou ztrátou kvality.
Složitá topologie a ostré detaily
Web projektu výslovně zmiňuje podporu otevřených povrchů, non-manifold geometrie i vnitřních uzavřených struktur. To je důležité hlavně u objektů, které nejdou dobře popsat jako jednoduchý uzavřený povrch.
PBR materiály
Projekt neřeší jen tvar. TRELLIS.2 modeluje i povrchové atributy jako base color, roughness, metallic a opacity. Výsledkem mají být assety vhodnější pro realistický rendering a další práci ve 3D nástrojích.
Co projekt nabízí
- model
TRELLIS.2-4Bproimage-to-3Dgenerování - online demo na Hugging Face
- inference kód pro generování 3D assetu z obrázku
- export výsledku do
GLB - samostatnou část pro generování PBR textur pro zadaný 3D tvar
- kompletní trénovací kód pro trénink od nuly nebo fine-tuning
Praktické požadavky
Podle README je projekt v současné době testovaný na Linuxu a vyžaduje NVIDIA GPU alespoň s 24 GB VRAM. Doporučený je CUDA Toolkit 12.4, Conda a Python 3.8 nebo novější.
Základní instalace vypadá takto:
git clone -b main https://github.com/microsoft/TRELLIS.2.git --recursive cd TRELLIS.2 . ./setup.sh --new-env --basic --flash-attn --nvdiffrast --nvdiffrec --cumesh --o-voxel --flexgemm
Kdy to dává smysl
TRELLIS.2 dává smysl hlavně tehdy, když je potřeba generovat 3D objekty z referenčního obrázku a zároveň mít použitelný výstup pro další rendering nebo úpravy. Zajímavý je hlavně pro workflow kolem 3D assetů, prototypování objektů, experimentů s image-to-3D a obecně pro výzkum generativní 3D grafiky.