NVIDIA DGX Spark
Vytvořeno: 1.5.2026 | Aktualizováno: 01.05.2026 06:49
NVIDIA DGX Spark je kompaktní desktopový AI systém určený pro lokální běh, testování a fine-tuning AI modelů. Český obchod Alza ho vede jako „NVIDIA DGX Spark 4TB“ a popisuje ho jako mini počítač pro inferenci velkých jazykových modelů, specializaci předtrénovaných sítí a vývoj AI agentů.
Co to je
DGX Spark je osobní AI pracovní stanice postavená na platformě NVIDIA GB10 Grace Blackwell. Cílem zařízení je dostat část práce s většími modely z cloudu nebo datacentra přímo na stůl vývojáře – hlavně lokální inference, prototypování, validaci modelů, agentní workflow a menší fine-tuning.
Nejde o běžný mini PC s desktopovou grafikou. Hlavní rozdíl je ve velké sjednocené paměti pro CPU i GPU, předinstalovaném NVIDIA AI softwarovém stacku a síťové výbavě pro propojení více jednotek.
Hlavní parametry
| Oblast | Parametr |
|---|---|
| Platforma | NVIDIA GB10 Grace Blackwell Superchip |
| CPU | 20jádrový Arm: 10× Cortex-X925 + 10× Cortex-A725 |
| GPU | NVIDIA Blackwell Architecture |
| Tensor Cores | 5. generace |
| RT Cores | 4. generace |
| AI výkon | až 1 PFLOP FP4; NVIDIA uvádí jako teoretický výkon s využitím sparsity |
| Paměť | 128 GB LPDDR5x coherent unified system memory |
| Paměťové rozhraní | 256 bit |
| Paměťová propustnost | 273 GB/s |
| Úložiště | 4 TB NVMe M.2 se self-encryption |
| USB | 4× USB-C |
| Ethernet | 1× RJ-45 10GbE |
| Další síť | ConnectX-7 NIC 200 Gb/s, Wi‑Fi 7, Bluetooth 5.4 |
| Video / audio | HDMI 2.1a, HDMI multichannel audio |
| Napájení | 240W zdroj |
| TDP GB10 | 140 W |
| OS | NVIDIA DGX OS |
| Rozměry | 150 × 150 × 50,5 mm |
| Hmotnost | 1,2 kg |
Lokální AI modely
NVIDIA uvádí, že DGX Spark zvládá práci s modely až do 200 miliard parametrů pro inference a testování. Pro fine-tuning produktová stránka uvádí modely až do 70 miliard parametrů.
V novějším článku NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark NVIDIA popisuje i scénáře pro lokální agentní workloady, velká kontextová okna a škálování více DGX Spark uzlů. Jeden uzel tam označuje jako vhodný pro low-latency inference s velkým kontextem, lokální agentní workloady a fine-tuning až do 120B parametrů. Více propojených jednotek pak slouží pro větší modely nebo vyšší paralelismus.
Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning.
Zdokumentované modely
NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou TensorRT-LLM playbook, vLLM playbook, LM Studio playbook a Multi-modal Inference playbook.
| Model | Runtime / zdroj | Poznámka |
|---|---|---|
| Nemotron-3-Nano-Omni-30B-A3B-Reasoning | TensorRT-LLM, vLLM | BF16, FP8 a NVFP4 varianty |
| Nemotron-3-Super-120B | TensorRT-LLM, vLLM | NVFP4 |
| GPT-OSS-20B | TensorRT-LLM, vLLM, LM Studio | MXFP4 |
| GPT-OSS-120B | TensorRT-LLM, vLLM, LM Studio | MXFP4; jeden z velkých lokálních scénářů |
| Llama-3.1-8B-Instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
| Llama-3.3-70B-Instruct | TensorRT-LLM, vLLM | NVFP4 |
| Qwen3-8B / 14B / 32B | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
| Qwen3-30B-A3B | TensorRT-LLM | NVFP4 |
| Qwen3-235B-A22B | TensorRT-LLM | v matici uvedeno jako „two Sparks only“ |
| Qwen2.5-VL-7B-Instruct | vLLM | NVFP4; vision-language model |
| Phi-4-multimodal-instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
| Phi-4-reasoning-plus | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
| Gemma 4 31B / 26B / menší varianty | vLLM | base nebo NVFP4 podle varianty |
| Qwen3.6-35B-A3B | LM Studio | uvedeno jako podporovaný model v LM Studio playbooku |
| FLUX.1 a SDXL | Multi-modal Inference playbook | diffusion modely pro text-to-image přes TensorRT |
Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení.
Qwen3 Coder Next
Qwen3-Coder-Next je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu.
Pro praktické nasazení existuje oficiální Qwen3-Coder-Next-FP8 varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling.
NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark.
Existují i komunitní kvantizace přímo cílené na GB10, například Qwen3-Coder-Next-NVFP4-GB10. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání.
Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách.
Vhodné použití
DGX Spark dává smysl hlavně pro:
- lokální inference open-weight LLM,
- vývoj a testování AI agentů,
- práci s většími kontextovými okny,
- prototypování před nasazením v cloudu nebo datacentru,
- menší fine-tuning a specializaci předtrénovaných modelů,
- vývoj edge AI aplikací, robotiky a computer vision workflow.
Pro běžné domácí hraní s menšími modely může být zbytečně drahý a specializovaný. Je zajímavý hlavně tam, kde nestačí běžná desktopová GPU s 24–48 GB VRAM, ale zároveň není cílem stavět plnohodnotný datacentrový server.
Opatrně u marketingových čísel
Hodnota 1 PFLOP je uváděná pro FP4 a podle poznámky NVIDIA jde o teoretický výkon při použití sparsity. Pro praktický výkon u LLM inference bude důležitá kombinace runtime, přesnosti modelu, paměťové propustnosti, délky kontextu a batchingu.
Podobně údaj o modelech do 200B parametrů neznamená, že všechny modely této velikosti poběží stejně dobře. Záleží na kvantizaci, architektuře modelu a tom, zda je konkrétní runtime pro DGX Spark dobře optimalizovaný.
Dostupnost v ČR
Alza má produkt vedený jako NVIDIA DGX Spark 4TB. Ve veřejně dostupném popisu uvádí 128 GB RAM, 4TB SSD, NVIDIA GB10 Grace Blackwell, NVIDIA DGX OS a zaměření na lokální zpracování AI modelů. Cena a skladová dostupnost se mohou měnit, proto je potřeba je ověřit přímo na stránce produktu.