====== NVIDIA DGX Spark ====== //Vytvořeno: **1.5.2026** | Aktualizováno: **~~LASTMOD~~**// [[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark]] je kompaktní desktopový AI systém určený pro lokální běh, testování a fine-tuning AI modelů. Český obchod [[https://www.alza.cz/nvidia-dgx-spark-d13165934.htm|Alza]] ho vede jako „NVIDIA DGX Spark 4TB“ a popisuje ho jako mini počítač pro inferenci velkých jazykových modelů, specializaci předtrénovaných sítí a vývoj AI agentů. ===== Co to je ===== DGX Spark je osobní AI pracovní stanice postavená na platformě NVIDIA GB10 Grace Blackwell. Cílem zařízení je dostat část práce s většími modely z cloudu nebo datacentra přímo na stůl vývojáře – hlavně lokální inference, prototypování, validaci modelů, agentní workflow a menší fine-tuning. Nejde o běžný mini PC s desktopovou grafikou. Hlavní rozdíl je ve velké sjednocené paměti pro CPU i GPU, předinstalovaném NVIDIA AI softwarovém stacku a síťové výbavě pro propojení více jednotek. ===== Hlavní parametry ===== ^ Oblast ^ Parametr ^ | Platforma | NVIDIA GB10 Grace Blackwell Superchip | | CPU | 20jádrový Arm: 10× Cortex-X925 + 10× Cortex-A725 | | GPU | NVIDIA Blackwell Architecture | | Tensor Cores | 5. generace | | RT Cores | 4. generace | | AI výkon | až 1 PFLOP FP4; NVIDIA uvádí jako teoretický výkon s využitím sparsity | | Paměť | 128 GB LPDDR5x coherent unified system memory | | Paměťové rozhraní | 256 bit | | Paměťová propustnost | 273 GB/s | | Úložiště | 4 TB NVMe M.2 se self-encryption | | USB | 4× USB-C | | Ethernet | 1× RJ-45 10GbE | | Další síť | ConnectX-7 NIC 200 Gb/s, Wi‑Fi 7, Bluetooth 5.4 | | Video / audio | HDMI 2.1a, HDMI multichannel audio | | Napájení | 240W zdroj | | TDP GB10 | 140 W | | OS | NVIDIA DGX OS | | Rozměry | 150 × 150 × 50,5 mm | | Hmotnost | 1,2 kg | ===== Lokální AI modely ===== NVIDIA uvádí, že DGX Spark zvládá práci s modely až do 200 miliard parametrů pro inference a testování. Pro fine-tuning produktová stránka uvádí modely až do 70 miliard parametrů. V novějším článku [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]] NVIDIA popisuje i scénáře pro lokální agentní workloady, velká kontextová okna a škálování více DGX Spark uzlů. Jeden uzel tam označuje jako vhodný pro low-latency inference s velkým kontextem, lokální agentní workloady a fine-tuning až do 120B parametrů. Více propojených jednotek pak slouží pro větší modely nebo vyšší paralelismus. Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning. ===== Zdokumentované modely ===== NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou [[https://build.nvidia.com/spark/trt-llm|TensorRT-LLM playbook]], [[https://build.nvidia.com/spark/vllm|vLLM playbook]], [[https://build.nvidia.com/spark/lm-studio|LM Studio playbook]] a [[https://build.nvidia.com/spark/multi-modal-inference|Multi-modal Inference playbook]]. ^ Model ^ Runtime / zdroj ^ Poznámka ^ | Nemotron-3-Nano-Omni-30B-A3B-Reasoning | TensorRT-LLM, vLLM | BF16, FP8 a NVFP4 varianty | | Nemotron-3-Super-120B | TensorRT-LLM, vLLM | NVFP4 | | GPT-OSS-20B | TensorRT-LLM, vLLM, LM Studio | MXFP4 | | GPT-OSS-120B | TensorRT-LLM, vLLM, LM Studio | MXFP4; jeden z velkých lokálních scénářů | | Llama-3.1-8B-Instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty | | Llama-3.3-70B-Instruct | TensorRT-LLM, vLLM | NVFP4 | | Qwen3-8B / 14B / 32B | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty | | Qwen3-30B-A3B | TensorRT-LLM | NVFP4 | | Qwen3-235B-A22B | TensorRT-LLM | v matici uvedeno jako „two Sparks only“ | | Qwen2.5-VL-7B-Instruct | vLLM | NVFP4; vision-language model | | Phi-4-multimodal-instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 | | Phi-4-reasoning-plus | TensorRT-LLM, vLLM | FP8 nebo NVFP4 | | Gemma 4 31B / 26B / menší varianty | vLLM | base nebo NVFP4 podle varianty | | Qwen3.6-35B-A3B | LM Studio | uvedeno jako podporovaný model v LM Studio playbooku | | FLUX.1 a SDXL | Multi-modal Inference playbook | diffusion modely pro text-to-image přes TensorRT | Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení. ==== Qwen3 Coder Next ==== [[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next]] je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu. Pro praktické nasazení existuje oficiální [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8]] varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling. NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark. Existují i komunitní kvantizace přímo cílené na GB10, například [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10]]. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání. Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách. ===== Vhodné použití ===== DGX Spark dává smysl hlavně pro: * lokální inference open-weight LLM, * vývoj a testování AI agentů, * práci s většími kontextovými okny, * prototypování před nasazením v cloudu nebo datacentru, * menší fine-tuning a specializaci předtrénovaných modelů, * vývoj edge AI aplikací, robotiky a computer vision workflow. Pro běžné domácí hraní s menšími modely může být zbytečně drahý a specializovaný. Je zajímavý hlavně tam, kde nestačí běžná desktopová GPU s 24–48 GB VRAM, ale zároveň není cílem stavět plnohodnotný datacentrový server. ===== Opatrně u marketingových čísel ===== Hodnota 1 PFLOP je uváděná pro FP4 a podle poznámky NVIDIA jde o teoretický výkon při použití sparsity. Pro praktický výkon u LLM inference bude důležitá kombinace runtime, přesnosti modelu, paměťové propustnosti, délky kontextu a batchingu. Podobně údaj o modelech do 200B parametrů neznamená, že všechny modely této velikosti poběží stejně dobře. Záleží na kvantizaci, architektuře modelu a tom, zda je konkrétní runtime pro DGX Spark dobře optimalizovaný. ===== Dostupnost v ČR ===== Alza má produkt vedený jako NVIDIA DGX Spark 4TB. Ve veřejně dostupném popisu uvádí 128 GB RAM, 4TB SSD, NVIDIA GB10 Grace Blackwell, NVIDIA DGX OS a zaměření na lokální zpracování AI modelů. Cena a skladová dostupnost se mohou měnit, proto je potřeba je ověřit přímo na stránce produktu. ===== Zdroje ===== * [[https://www.alza.cz/nvidia-dgx-spark-d13165934.htm|Alza – NVIDIA DGX Spark 4TB]] * [[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark – oficiální produktová stránka]] * [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]] * [[https://build.nvidia.com/spark/trt-llm|NVIDIA Build – TensorRT-LLM for Inference on DGX Spark]] * [[https://build.nvidia.com/spark/vllm|NVIDIA Build – vLLM for Inference on DGX Spark]] * [[https://build.nvidia.com/spark/lm-studio|NVIDIA Build – LM Studio on DGX Spark]] * [[https://build.nvidia.com/spark/multi-modal-inference|NVIDIA Build – Multi-modal Inference on DGX Spark]] * [[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next – model card]] * [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8 – model card]] * [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10 – komunitní kvantizace pro DGX Spark]]