====== NVIDIA DGX Spark ======

//Vytvořeno: **1.5.2026** | Aktualizováno: **~~LASTMOD~~**//

[[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark]] je kompaktní desktopový AI systém určený pro lokální běh, testování a fine-tuning AI modelů. Český obchod [[https://www.alza.cz/nvidia-dgx-spark-d13165934.htm|Alza]] ho vede jako „NVIDIA DGX Spark 4TB“ a popisuje ho jako mini počítač pro inferenci velkých jazykových modelů, specializaci předtrénovaných sítí a vývoj AI agentů.

===== Co to je =====

DGX Spark je osobní AI pracovní stanice postavená na platformě NVIDIA GB10 Grace Blackwell. Cílem zařízení je dostat část práce s většími modely z cloudu nebo datacentra přímo na stůl vývojáře – hlavně lokální inference, prototypování, validaci modelů, agentní workflow a menší fine-tuning.

Nejde o běžný mini PC s desktopovou grafikou. Hlavní rozdíl je ve velké sjednocené paměti pro CPU i GPU, předinstalovaném NVIDIA AI softwarovém stacku a síťové výbavě pro propojení více jednotek.

===== Hlavní parametry =====

^ Oblast ^ Parametr ^
| Platforma | NVIDIA GB10 Grace Blackwell Superchip |
| CPU | 20jádrový Arm: 10× Cortex-X925 + 10× Cortex-A725 |
| GPU | NVIDIA Blackwell Architecture |
| Tensor Cores | 5. generace |
| RT Cores | 4. generace |
| AI výkon | až 1 PFLOP FP4; NVIDIA uvádí jako teoretický výkon s využitím sparsity |
| Paměť | 128 GB LPDDR5x coherent unified system memory |
| Paměťové rozhraní | 256 bit |
| Paměťová propustnost | 273 GB/s |
| Úložiště | 4 TB NVMe M.2 se self-encryption |
| USB | 4× USB-C |
| Ethernet | 1× RJ-45 10GbE |
| Další síť | ConnectX-7 NIC 200 Gb/s, Wi‑Fi 7, Bluetooth 5.4 |
| Video / audio | HDMI 2.1a, HDMI multichannel audio |
| Napájení | 240W zdroj |
| TDP GB10 | 140 W |
| OS | NVIDIA DGX OS |
| Rozměry | 150 × 150 × 50,5 mm |
| Hmotnost | 1,2 kg |

===== Lokální AI modely =====

NVIDIA uvádí, že DGX Spark zvládá práci s modely až do 200 miliard parametrů pro inference a testování. Pro fine-tuning produktová stránka uvádí modely až do 70 miliard parametrů.

V novějším článku [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]] NVIDIA popisuje i scénáře pro lokální agentní workloady, velká kontextová okna a škálování více DGX Spark uzlů. Jeden uzel tam označuje jako vhodný pro low-latency inference s velkým kontextem, lokální agentní workloady a fine-tuning až do 120B parametrů. Více propojených jednotek pak slouží pro větší modely nebo vyšší paralelismus.

Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning.

===== Zdokumentované modely =====

NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou [[https://build.nvidia.com/spark/trt-llm|TensorRT-LLM playbook]], [[https://build.nvidia.com/spark/vllm|vLLM playbook]], [[https://build.nvidia.com/spark/lm-studio|LM Studio playbook]] a [[https://build.nvidia.com/spark/multi-modal-inference|Multi-modal Inference playbook]].

^ Model ^ Runtime / zdroj ^ Poznámka ^
| Nemotron-3-Nano-Omni-30B-A3B-Reasoning | TensorRT-LLM, vLLM | BF16, FP8 a NVFP4 varianty |
| Nemotron-3-Super-120B | TensorRT-LLM, vLLM | NVFP4 |
| GPT-OSS-20B | TensorRT-LLM, vLLM, LM Studio | MXFP4 |
| GPT-OSS-120B | TensorRT-LLM, vLLM, LM Studio | MXFP4; jeden z velkých lokálních scénářů |
| Llama-3.1-8B-Instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
| Llama-3.3-70B-Instruct | TensorRT-LLM, vLLM | NVFP4 |
| Qwen3-8B / 14B / 32B | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
| Qwen3-30B-A3B | TensorRT-LLM | NVFP4 |
| Qwen3-235B-A22B | TensorRT-LLM | v matici uvedeno jako „two Sparks only“ |
| Qwen2.5-VL-7B-Instruct | vLLM | NVFP4; vision-language model |
| Phi-4-multimodal-instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
| Phi-4-reasoning-plus | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
| Gemma 4 31B / 26B / menší varianty | vLLM | base nebo NVFP4 podle varianty |
| Qwen3.6-35B-A3B | LM Studio | uvedeno jako podporovaný model v LM Studio playbooku |
| FLUX.1 a SDXL | Multi-modal Inference playbook | diffusion modely pro text-to-image přes TensorRT |

Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení.

==== Qwen3 Coder Next ====

[[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next]] je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu.

Pro praktické nasazení existuje oficiální [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8]] varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling.

NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark.

Existují i komunitní kvantizace přímo cílené na GB10, například [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10]]. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání.

Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách.

===== Vhodné použití =====

DGX Spark dává smysl hlavně pro:

  * lokální inference open-weight LLM,
  * vývoj a testování AI agentů,
  * práci s většími kontextovými okny,
  * prototypování před nasazením v cloudu nebo datacentru,
  * menší fine-tuning a specializaci předtrénovaných modelů,
  * vývoj edge AI aplikací, robotiky a computer vision workflow.

Pro běžné domácí hraní s menšími modely může být zbytečně drahý a specializovaný. Je zajímavý hlavně tam, kde nestačí běžná desktopová GPU s 24–48 GB VRAM, ale zároveň není cílem stavět plnohodnotný datacentrový server.

===== Opatrně u marketingových čísel =====

Hodnota 1 PFLOP je uváděná pro FP4 a podle poznámky NVIDIA jde o teoretický výkon při použití sparsity. Pro praktický výkon u LLM inference bude důležitá kombinace runtime, přesnosti modelu, paměťové propustnosti, délky kontextu a batchingu.

Podobně údaj o modelech do 200B parametrů neznamená, že všechny modely této velikosti poběží stejně dobře. Záleží na kvantizaci, architektuře modelu a tom, zda je konkrétní runtime pro DGX Spark dobře optimalizovaný.

===== Dostupnost v ČR =====

Alza má produkt vedený jako NVIDIA DGX Spark 4TB. Ve veřejně dostupném popisu uvádí 128 GB RAM, 4TB SSD, NVIDIA GB10 Grace Blackwell, NVIDIA DGX OS a zaměření na lokální zpracování AI modelů. Cena a skladová dostupnost se mohou měnit, proto je potřeba je ověřit přímo na stránce produktu.

===== Zdroje =====

  * [[https://www.alza.cz/nvidia-dgx-spark-d13165934.htm|Alza – NVIDIA DGX Spark 4TB]]
  * [[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark – oficiální produktová stránka]]
  * [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]]
  * [[https://build.nvidia.com/spark/trt-llm|NVIDIA Build – TensorRT-LLM for Inference on DGX Spark]]
  * [[https://build.nvidia.com/spark/vllm|NVIDIA Build – vLLM for Inference on DGX Spark]]
  * [[https://build.nvidia.com/spark/lm-studio|NVIDIA Build – LM Studio on DGX Spark]]
  * [[https://build.nvidia.com/spark/multi-modal-inference|NVIDIA Build – Multi-modal Inference on DGX Spark]]
  * [[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next – model card]]
  * [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8 – model card]]
  * [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10 – komunitní kvantizace pro DGX Spark]]