ai:hardware:nvidia-dgx-spark

NVIDIA DGX Spark

Vytvořeno: 1.5.2026 | Aktualizováno: 01.05.2026 06:49

NVIDIA DGX Spark je kompaktní desktopový AI systém určený pro lokální běh, testování a fine-tuning AI modelů. Český obchod Alza ho vede jako „NVIDIA DGX Spark 4TB“ a popisuje ho jako mini počítač pro inferenci velkých jazykových modelů, specializaci předtrénovaných sítí a vývoj AI agentů.

DGX Spark je osobní AI pracovní stanice postavená na platformě NVIDIA GB10 Grace Blackwell. Cílem zařízení je dostat část práce s většími modely z cloudu nebo datacentra přímo na stůl vývojáře – hlavně lokální inference, prototypování, validaci modelů, agentní workflow a menší fine-tuning.

Nejde o běžný mini PC s desktopovou grafikou. Hlavní rozdíl je ve velké sjednocené paměti pro CPU i GPU, předinstalovaném NVIDIA AI softwarovém stacku a síťové výbavě pro propojení více jednotek.

Oblast Parametr
Platforma NVIDIA GB10 Grace Blackwell Superchip
CPU 20jádrový Arm: 10× Cortex-X925 + 10× Cortex-A725
GPU NVIDIA Blackwell Architecture
Tensor Cores 5. generace
RT Cores 4. generace
AI výkon až 1 PFLOP FP4; NVIDIA uvádí jako teoretický výkon s využitím sparsity
Paměť 128 GB LPDDR5x coherent unified system memory
Paměťové rozhraní 256 bit
Paměťová propustnost 273 GB/s
Úložiště 4 TB NVMe M.2 se self-encryption
USB 4× USB-C
Ethernet 1× RJ-45 10GbE
Další síť ConnectX-7 NIC 200 Gb/s, Wi‑Fi 7, Bluetooth 5.4
Video / audio HDMI 2.1a, HDMI multichannel audio
Napájení 240W zdroj
TDP GB10 140 W
OS NVIDIA DGX OS
Rozměry 150 × 150 × 50,5 mm
Hmotnost 1,2 kg

NVIDIA uvádí, že DGX Spark zvládá práci s modely až do 200 miliard parametrů pro inference a testování. Pro fine-tuning produktová stránka uvádí modely až do 70 miliard parametrů.

V novějším článku NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark NVIDIA popisuje i scénáře pro lokální agentní workloady, velká kontextová okna a škálování více DGX Spark uzlů. Jeden uzel tam označuje jako vhodný pro low-latency inference s velkým kontextem, lokální agentní workloady a fine-tuning až do 120B parametrů. Více propojených jednotek pak slouží pro větší modely nebo vyšší paralelismus.

Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning.

NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou TensorRT-LLM playbook, vLLM playbook, LM Studio playbook a Multi-modal Inference playbook.

Model Runtime / zdroj Poznámka
Nemotron-3-Nano-Omni-30B-A3B-Reasoning TensorRT-LLM, vLLM BF16, FP8 a NVFP4 varianty
Nemotron-3-Super-120B TensorRT-LLM, vLLM NVFP4
GPT-OSS-20B TensorRT-LLM, vLLM, LM Studio MXFP4
GPT-OSS-120B TensorRT-LLM, vLLM, LM Studio MXFP4; jeden z velkých lokálních scénářů
Llama-3.1-8B-Instruct TensorRT-LLM, vLLM FP8 nebo NVFP4 podle varianty
Llama-3.3-70B-Instruct TensorRT-LLM, vLLM NVFP4
Qwen3-8B / 14B / 32B TensorRT-LLM, vLLM FP8 nebo NVFP4 podle varianty
Qwen3-30B-A3B TensorRT-LLM NVFP4
Qwen3-235B-A22B TensorRT-LLM v matici uvedeno jako „two Sparks only“
Qwen2.5-VL-7B-Instruct vLLM NVFP4; vision-language model
Phi-4-multimodal-instruct TensorRT-LLM, vLLM FP8 nebo NVFP4
Phi-4-reasoning-plus TensorRT-LLM, vLLM FP8 nebo NVFP4
Gemma 4 31B / 26B / menší varianty vLLM base nebo NVFP4 podle varianty
Qwen3.6-35B-A3B LM Studio uvedeno jako podporovaný model v LM Studio playbooku
FLUX.1 a SDXL Multi-modal Inference playbook diffusion modely pro text-to-image přes TensorRT

Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení.

Qwen3-Coder-Next je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu.

Pro praktické nasazení existuje oficiální Qwen3-Coder-Next-FP8 varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling.

NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark.

Existují i komunitní kvantizace přímo cílené na GB10, například Qwen3-Coder-Next-NVFP4-GB10. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání.

Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách.

DGX Spark dává smysl hlavně pro:

  • lokální inference open-weight LLM,
  • vývoj a testování AI agentů,
  • práci s většími kontextovými okny,
  • prototypování před nasazením v cloudu nebo datacentru,
  • menší fine-tuning a specializaci předtrénovaných modelů,
  • vývoj edge AI aplikací, robotiky a computer vision workflow.

Pro běžné domácí hraní s menšími modely může být zbytečně drahý a specializovaný. Je zajímavý hlavně tam, kde nestačí běžná desktopová GPU s 24–48 GB VRAM, ale zároveň není cílem stavět plnohodnotný datacentrový server.

Hodnota 1 PFLOP je uváděná pro FP4 a podle poznámky NVIDIA jde o teoretický výkon při použití sparsity. Pro praktický výkon u LLM inference bude důležitá kombinace runtime, přesnosti modelu, paměťové propustnosti, délky kontextu a batchingu.

Podobně údaj o modelech do 200B parametrů neznamená, že všechny modely této velikosti poběží stejně dobře. Záleží na kvantizaci, architektuře modelu a tom, zda je konkrétní runtime pro DGX Spark dobře optimalizovaný.

Alza má produkt vedený jako NVIDIA DGX Spark 4TB. Ve veřejně dostupném popisu uvádí 128 GB RAM, 4TB SSD, NVIDIA GB10 Grace Blackwell, NVIDIA DGX OS a zaměření na lokální zpracování AI modelů. Cena a skladová dostupnost se mohou měnit, proto je potřeba je ověřit přímo na stránce produktu.

  • ai/hardware/nvidia-dgx-spark.txt
  • Poslední úprava: 01.05.2026 06:49
  • autor: Petr Nosek