Vytvořeno: 1.5.2026 | Aktualizováno: 01.05.2026 06:49
NVIDIA DGX Spark je kompaktní desktopový AI systém určený pro lokální běh, testování a fine-tuning AI modelů. Český obchod Alza ho vede jako „NVIDIA DGX Spark 4TB“ a popisuje ho jako mini počítač pro inferenci velkých jazykových modelů, specializaci předtrénovaných sítí a vývoj AI agentů.
DGX Spark je osobní AI pracovní stanice postavená na platformě NVIDIA GB10 Grace Blackwell. Cílem zařízení je dostat část práce s většími modely z cloudu nebo datacentra přímo na stůl vývojáře – hlavně lokální inference, prototypování, validaci modelů, agentní workflow a menší fine-tuning.
Nejde o běžný mini PC s desktopovou grafikou. Hlavní rozdíl je ve velké sjednocené paměti pro CPU i GPU, předinstalovaném NVIDIA AI softwarovém stacku a síťové výbavě pro propojení více jednotek.
| Oblast | Parametr |
|---|---|
| Platforma | NVIDIA GB10 Grace Blackwell Superchip |
| CPU | 20jádrový Arm: 10× Cortex-X925 + 10× Cortex-A725 |
| GPU | NVIDIA Blackwell Architecture |
| Tensor Cores | 5. generace |
| RT Cores | 4. generace |
| AI výkon | až 1 PFLOP FP4; NVIDIA uvádí jako teoretický výkon s využitím sparsity |
| Paměť | 128 GB LPDDR5x coherent unified system memory |
| Paměťové rozhraní | 256 bit |
| Paměťová propustnost | 273 GB/s |
| Úložiště | 4 TB NVMe M.2 se self-encryption |
| USB | 4× USB-C |
| Ethernet | 1× RJ-45 10GbE |
| Další síť | ConnectX-7 NIC 200 Gb/s, Wi‑Fi 7, Bluetooth 5.4 |
| Video / audio | HDMI 2.1a, HDMI multichannel audio |
| Napájení | 240W zdroj |
| TDP GB10 | 140 W |
| OS | NVIDIA DGX OS |
| Rozměry | 150 × 150 × 50,5 mm |
| Hmotnost | 1,2 kg |
NVIDIA uvádí, že DGX Spark zvládá práci s modely až do 200 miliard parametrů pro inference a testování. Pro fine-tuning produktová stránka uvádí modely až do 70 miliard parametrů.
V novějším článku NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark NVIDIA popisuje i scénáře pro lokální agentní workloady, velká kontextová okna a škálování více DGX Spark uzlů. Jeden uzel tam označuje jako vhodný pro low-latency inference s velkým kontextem, lokální agentní workloady a fine-tuning až do 120B parametrů. Více propojených jednotek pak slouží pro větší modely nebo vyšší paralelismus.
Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning.
NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou TensorRT-LLM playbook, vLLM playbook, LM Studio playbook a Multi-modal Inference playbook.
| Model | Runtime / zdroj | Poznámka |
|---|---|---|
| Nemotron-3-Nano-Omni-30B-A3B-Reasoning | TensorRT-LLM, vLLM | BF16, FP8 a NVFP4 varianty |
| Nemotron-3-Super-120B | TensorRT-LLM, vLLM | NVFP4 |
| GPT-OSS-20B | TensorRT-LLM, vLLM, LM Studio | MXFP4 |
| GPT-OSS-120B | TensorRT-LLM, vLLM, LM Studio | MXFP4; jeden z velkých lokálních scénářů |
| Llama-3.1-8B-Instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
| Llama-3.3-70B-Instruct | TensorRT-LLM, vLLM | NVFP4 |
| Qwen3-8B / 14B / 32B | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
| Qwen3-30B-A3B | TensorRT-LLM | NVFP4 |
| Qwen3-235B-A22B | TensorRT-LLM | v matici uvedeno jako „two Sparks only“ |
| Qwen2.5-VL-7B-Instruct | vLLM | NVFP4; vision-language model |
| Phi-4-multimodal-instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
| Phi-4-reasoning-plus | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
| Gemma 4 31B / 26B / menší varianty | vLLM | base nebo NVFP4 podle varianty |
| Qwen3.6-35B-A3B | LM Studio | uvedeno jako podporovaný model v LM Studio playbooku |
| FLUX.1 a SDXL | Multi-modal Inference playbook | diffusion modely pro text-to-image přes TensorRT |
Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení.
Qwen3-Coder-Next je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu.
Pro praktické nasazení existuje oficiální Qwen3-Coder-Next-FP8 varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling.
NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark.
Existují i komunitní kvantizace přímo cílené na GB10, například Qwen3-Coder-Next-NVFP4-GB10. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání.
Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách.
DGX Spark dává smysl hlavně pro:
Pro běžné domácí hraní s menšími modely může být zbytečně drahý a specializovaný. Je zajímavý hlavně tam, kde nestačí běžná desktopová GPU s 24–48 GB VRAM, ale zároveň není cílem stavět plnohodnotný datacentrový server.
Hodnota 1 PFLOP je uváděná pro FP4 a podle poznámky NVIDIA jde o teoretický výkon při použití sparsity. Pro praktický výkon u LLM inference bude důležitá kombinace runtime, přesnosti modelu, paměťové propustnosti, délky kontextu a batchingu.
Podobně údaj o modelech do 200B parametrů neznamená, že všechny modely této velikosti poběží stejně dobře. Záleží na kvantizaci, architektuře modelu a tom, zda je konkrétní runtime pro DGX Spark dobře optimalizovaný.
Alza má produkt vedený jako NVIDIA DGX Spark 4TB. Ve veřejně dostupném popisu uvádí 128 GB RAM, 4TB SSD, NVIDIA GB10 Grace Blackwell, NVIDIA DGX OS a zaměření na lokální zpracování AI modelů. Cena a skladová dostupnost se mohou měnit, proto je potřeba je ověřit přímo na stránce produktu.