Obsah

NVIDIA DGX Spark

Vytvořeno: 1.5.2026 | Aktualizováno: 01.05.2026 06:49

NVIDIA DGX Spark je kompaktní desktopový AI systém určený pro lokální běh, testování a fine-tuning AI modelů. Český obchod Alza ho vede jako „NVIDIA DGX Spark 4TB“ a popisuje ho jako mini počítač pro inferenci velkých jazykových modelů, specializaci předtrénovaných sítí a vývoj AI agentů.

Co to je

DGX Spark je osobní AI pracovní stanice postavená na platformě NVIDIA GB10 Grace Blackwell. Cílem zařízení je dostat část práce s většími modely z cloudu nebo datacentra přímo na stůl vývojáře – hlavně lokální inference, prototypování, validaci modelů, agentní workflow a menší fine-tuning.

Nejde o běžný mini PC s desktopovou grafikou. Hlavní rozdíl je ve velké sjednocené paměti pro CPU i GPU, předinstalovaném NVIDIA AI softwarovém stacku a síťové výbavě pro propojení více jednotek.

Hlavní parametry

Oblast Parametr
Platforma NVIDIA GB10 Grace Blackwell Superchip
CPU 20jádrový Arm: 10× Cortex-X925 + 10× Cortex-A725
GPU NVIDIA Blackwell Architecture
Tensor Cores 5. generace
RT Cores 4. generace
AI výkon až 1 PFLOP FP4; NVIDIA uvádí jako teoretický výkon s využitím sparsity
Paměť 128 GB LPDDR5x coherent unified system memory
Paměťové rozhraní 256 bit
Paměťová propustnost 273 GB/s
Úložiště 4 TB NVMe M.2 se self-encryption
USB 4× USB-C
Ethernet 1× RJ-45 10GbE
Další síť ConnectX-7 NIC 200 Gb/s, Wi‑Fi 7, Bluetooth 5.4
Video / audio HDMI 2.1a, HDMI multichannel audio
Napájení 240W zdroj
TDP GB10 140 W
OS NVIDIA DGX OS
Rozměry 150 × 150 × 50,5 mm
Hmotnost 1,2 kg

Lokální AI modely

NVIDIA uvádí, že DGX Spark zvládá práci s modely až do 200 miliard parametrů pro inference a testování. Pro fine-tuning produktová stránka uvádí modely až do 70 miliard parametrů.

V novějším článku NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark NVIDIA popisuje i scénáře pro lokální agentní workloady, velká kontextová okna a škálování více DGX Spark uzlů. Jeden uzel tam označuje jako vhodný pro low-latency inference s velkým kontextem, lokální agentní workloady a fine-tuning až do 120B parametrů. Více propojených jednotek pak slouží pro větší modely nebo vyšší paralelismus.

Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning.

Zdokumentované modely

NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou TensorRT-LLM playbook, vLLM playbook, LM Studio playbook a Multi-modal Inference playbook.

Model Runtime / zdroj Poznámka
Nemotron-3-Nano-Omni-30B-A3B-Reasoning TensorRT-LLM, vLLM BF16, FP8 a NVFP4 varianty
Nemotron-3-Super-120B TensorRT-LLM, vLLM NVFP4
GPT-OSS-20B TensorRT-LLM, vLLM, LM Studio MXFP4
GPT-OSS-120B TensorRT-LLM, vLLM, LM Studio MXFP4; jeden z velkých lokálních scénářů
Llama-3.1-8B-Instruct TensorRT-LLM, vLLM FP8 nebo NVFP4 podle varianty
Llama-3.3-70B-Instruct TensorRT-LLM, vLLM NVFP4
Qwen3-8B / 14B / 32B TensorRT-LLM, vLLM FP8 nebo NVFP4 podle varianty
Qwen3-30B-A3B TensorRT-LLM NVFP4
Qwen3-235B-A22B TensorRT-LLM v matici uvedeno jako „two Sparks only“
Qwen2.5-VL-7B-Instruct vLLM NVFP4; vision-language model
Phi-4-multimodal-instruct TensorRT-LLM, vLLM FP8 nebo NVFP4
Phi-4-reasoning-plus TensorRT-LLM, vLLM FP8 nebo NVFP4
Gemma 4 31B / 26B / menší varianty vLLM base nebo NVFP4 podle varianty
Qwen3.6-35B-A3B LM Studio uvedeno jako podporovaný model v LM Studio playbooku
FLUX.1 a SDXL Multi-modal Inference playbook diffusion modely pro text-to-image přes TensorRT

Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení.

Qwen3 Coder Next

Qwen3-Coder-Next je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu.

Pro praktické nasazení existuje oficiální Qwen3-Coder-Next-FP8 varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling.

NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark.

Existují i komunitní kvantizace přímo cílené na GB10, například Qwen3-Coder-Next-NVFP4-GB10. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání.

Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách.

Vhodné použití

DGX Spark dává smysl hlavně pro:

Pro běžné domácí hraní s menšími modely může být zbytečně drahý a specializovaný. Je zajímavý hlavně tam, kde nestačí běžná desktopová GPU s 24–48 GB VRAM, ale zároveň není cílem stavět plnohodnotný datacentrový server.

Opatrně u marketingových čísel

Hodnota 1 PFLOP je uváděná pro FP4 a podle poznámky NVIDIA jde o teoretický výkon při použití sparsity. Pro praktický výkon u LLM inference bude důležitá kombinace runtime, přesnosti modelu, paměťové propustnosti, délky kontextu a batchingu.

Podobně údaj o modelech do 200B parametrů neznamená, že všechny modely této velikosti poběží stejně dobře. Záleží na kvantizaci, architektuře modelu a tom, zda je konkrétní runtime pro DGX Spark dobře optimalizovaný.

Dostupnost v ČR

Alza má produkt vedený jako NVIDIA DGX Spark 4TB. Ve veřejně dostupném popisu uvádí 128 GB RAM, 4TB SSD, NVIDIA GB10 Grace Blackwell, NVIDIA DGX OS a zaměření na lokální zpracování AI modelů. Cena a skladová dostupnost se mohou měnit, proto je potřeba je ověřit přímo na stránce produktu.

Zdroje