TRELLIS.2

TRELLIS.2 je open-source výzkumný projekt od Microsoftu pro převod obrázku na 3D model. Zaměřuje se na generování plně texturovaných PBR assetů ve vysokém rozlišení a podle autorů spojuje generování geometrie i materiálů do jednoho pipeline.

Co to je za projekt

TRELLIS.2 je image-to-3D model se 4 miliardami parametrů. Vstupem je obrázek a výstupem 3D asset s texturami a PBR materiály, který lze dál exportovat například do GLB.

Projekt není jen paper nebo demo. Repozitář na GitHubu obsahuje inference kód, webové demo, pretrained checkpointy i trénovací kód. Na oficiálním webu autoři uvádějí i demo na Hugging Face a model TRELLIS.2-4B.

Jak je projekt postavený

O-Voxel reprezentace

Základ projektu tvoří reprezentace O-Voxel, kterou autoři popisují jako field-free sparse voxel structure. Cílem je zachytit geometrii i vzhled objektu bez omezení typických pro přístupy založené čistě na iso-surface field reprezentaci.

Sparse Compression VAE

TRELLIS.2 používá 3D VAE se 16x prostorovou kompresí. Podle autorů to umožňuje udržet latentní reprezentaci dostatečně kompaktní pro generování ve velkém měřítku a přitom s malou ztrátou kvality.

Složitá topologie a ostré detaily

Web projektu výslovně zmiňuje podporu otevřených povrchů, non-manifold geometrie i vnitřních uzavřených struktur. To je důležité hlavně u objektů, které nejdou dobře popsat jako jednoduchý uzavřený povrch.

PBR materiály

Projekt neřeší jen tvar. TRELLIS.2 modeluje i povrchové atributy jako base color, roughness, metallic a opacity. Výsledkem mají být assety vhodnější pro realistický rendering a další práci ve 3D nástrojích.

Co projekt nabízí

model TRELLIS.2-4B pro image-to-3D generování
online demo na Hugging Face
inference kód pro generování 3D assetu z obrázku
export výsledku do GLB
samostatnou část pro generování PBR textur pro zadaný 3D tvar
kompletní trénovací kód pro trénink od nuly nebo fine-tuning

Praktické požadavky

Podle README v GitHub repozitáři je projekt v současné době testovaný na Linuxu a vyžaduje NVIDIA GPU alespoň s 24 GB VRAM. Doporučený je CUDA Toolkit 12.4, Conda a Python 3.8 nebo novější.

Základní instalace vypadá takto:

git clone -b main https://github.com/microsoft/TRELLIS.2.git --recursive
cd TRELLIS.2
 
. ./setup.sh --new-env --basic --flash-attn --nvdiffrast --nvdiffrec --cumesh --o-voxel --flexgemm

Kdy to dává smysl

TRELLIS.2 dává smysl hlavně tehdy, když je potřeba generovat 3D objekty z referenčního obrázku a zároveň mít použitelný výstup pro další rendering nebo úpravy. Zajímavý je hlavně pro workflow kolem 3D assetů, prototypování objektů, experimentů s image-to-3D a obecně pro výzkum generativní 3D grafiky popsaný i v paperu Native and Compact Structured Latents for 3D Generation.

Obsah