| |
| ai:hardware:nvidia-dgx-spark [01.05.2026 06:36] – Založení článku o NVIDIA DGX Spark Petr Nosek | ai:hardware:nvidia-dgx-spark [01.05.2026 06:49] (aktuální) – Doplnění zdokumentovaných modelů a Qwen3 Coder Next Petr Nosek |
|---|
| |
| Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning. | Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning. |
| | |
| | ===== Zdokumentované modely ===== |
| | |
| | NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou [[https://build.nvidia.com/spark/trt-llm|TensorRT-LLM playbook]], [[https://build.nvidia.com/spark/vllm|vLLM playbook]], [[https://build.nvidia.com/spark/lm-studio|LM Studio playbook]] a [[https://build.nvidia.com/spark/multi-modal-inference|Multi-modal Inference playbook]]. |
| | |
| | ^ Model ^ Runtime / zdroj ^ Poznámka ^ |
| | | Nemotron-3-Nano-Omni-30B-A3B-Reasoning | TensorRT-LLM, vLLM | BF16, FP8 a NVFP4 varianty | |
| | | Nemotron-3-Super-120B | TensorRT-LLM, vLLM | NVFP4 | |
| | | GPT-OSS-20B | TensorRT-LLM, vLLM, LM Studio | MXFP4 | |
| | | GPT-OSS-120B | TensorRT-LLM, vLLM, LM Studio | MXFP4; jeden z velkých lokálních scénářů | |
| | | Llama-3.1-8B-Instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty | |
| | | Llama-3.3-70B-Instruct | TensorRT-LLM, vLLM | NVFP4 | |
| | | Qwen3-8B / 14B / 32B | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty | |
| | | Qwen3-30B-A3B | TensorRT-LLM | NVFP4 | |
| | | Qwen3-235B-A22B | TensorRT-LLM | v matici uvedeno jako „two Sparks only“ | |
| | | Qwen2.5-VL-7B-Instruct | vLLM | NVFP4; vision-language model | |
| | | Phi-4-multimodal-instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 | |
| | | Phi-4-reasoning-plus | TensorRT-LLM, vLLM | FP8 nebo NVFP4 | |
| | | Gemma 4 31B / 26B / menší varianty | vLLM | base nebo NVFP4 podle varianty | |
| | | Qwen3.6-35B-A3B | LM Studio | uvedeno jako podporovaný model v LM Studio playbooku | |
| | | FLUX.1 a SDXL | Multi-modal Inference playbook | diffusion modely pro text-to-image přes TensorRT | |
| | |
| | Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení. |
| | |
| | ==== Qwen3 Coder Next ==== |
| | |
| | [[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next]] je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu. |
| | |
| | Pro praktické nasazení existuje oficiální [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8]] varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling. |
| | |
| | NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark. |
| | |
| | Existují i komunitní kvantizace přímo cílené na GB10, například [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10]]. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání. |
| | |
| | Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách. |
| |
| ===== Vhodné použití ===== | ===== Vhodné použití ===== |
| * [[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark – oficiální produktová stránka]] | * [[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark – oficiální produktová stránka]] |
| * [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]] | * [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]] |
| | * [[https://build.nvidia.com/spark/trt-llm|NVIDIA Build – TensorRT-LLM for Inference on DGX Spark]] |
| | * [[https://build.nvidia.com/spark/vllm|NVIDIA Build – vLLM for Inference on DGX Spark]] |
| | * [[https://build.nvidia.com/spark/lm-studio|NVIDIA Build – LM Studio on DGX Spark]] |
| | * [[https://build.nvidia.com/spark/multi-modal-inference|NVIDIA Build – Multi-modal Inference on DGX Spark]] |
| | * [[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next – model card]] |
| | * [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8 – model card]] |
| | * [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10 – komunitní kvantizace pro DGX Spark]] |
| |