ai:hardware:nvidia-dgx-spark

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

ai:hardware:nvidia-dgx-spark [01.05.2026 06:36] – Založení článku o NVIDIA DGX Spark Petr Nosekai:hardware:nvidia-dgx-spark [01.05.2026 06:49] (aktuální) – Doplnění zdokumentovaných modelů a Qwen3 Coder Next Petr Nosek
Řádek 41: Řádek 41:
  
 Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning. Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning.
 +
 +===== Zdokumentované modely =====
 +
 +NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou [[https://build.nvidia.com/spark/trt-llm|TensorRT-LLM playbook]], [[https://build.nvidia.com/spark/vllm|vLLM playbook]], [[https://build.nvidia.com/spark/lm-studio|LM Studio playbook]] a [[https://build.nvidia.com/spark/multi-modal-inference|Multi-modal Inference playbook]].
 +
 +^ Model ^ Runtime / zdroj ^ Poznámka ^
 +| Nemotron-3-Nano-Omni-30B-A3B-Reasoning | TensorRT-LLM, vLLM | BF16, FP8 a NVFP4 varianty |
 +| Nemotron-3-Super-120B | TensorRT-LLM, vLLM | NVFP4 |
 +| GPT-OSS-20B | TensorRT-LLM, vLLM, LM Studio | MXFP4 |
 +| GPT-OSS-120B | TensorRT-LLM, vLLM, LM Studio | MXFP4; jeden z velkých lokálních scénářů |
 +| Llama-3.1-8B-Instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
 +| Llama-3.3-70B-Instruct | TensorRT-LLM, vLLM | NVFP4 |
 +| Qwen3-8B / 14B / 32B | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
 +| Qwen3-30B-A3B | TensorRT-LLM | NVFP4 |
 +| Qwen3-235B-A22B | TensorRT-LLM | v matici uvedeno jako „two Sparks only“ |
 +| Qwen2.5-VL-7B-Instruct | vLLM | NVFP4; vision-language model |
 +| Phi-4-multimodal-instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
 +| Phi-4-reasoning-plus | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
 +| Gemma 4 31B / 26B / menší varianty | vLLM | base nebo NVFP4 podle varianty |
 +| Qwen3.6-35B-A3B | LM Studio | uvedeno jako podporovaný model v LM Studio playbooku |
 +| FLUX.1 a SDXL | Multi-modal Inference playbook | diffusion modely pro text-to-image přes TensorRT |
 +
 +Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení.
 +
 +==== Qwen3 Coder Next ====
 +
 +[[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next]] je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu.
 +
 +Pro praktické nasazení existuje oficiální [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8]] varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling.
 +
 +NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark.
 +
 +Existují i komunitní kvantizace přímo cílené na GB10, například [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10]]. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání.
 +
 +Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách.
  
 ===== Vhodné použití ===== ===== Vhodné použití =====
Řádek 70: Řádek 105:
   * [[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark – oficiální produktová stránka]]   * [[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark – oficiální produktová stránka]]
   * [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]]   * [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]]
 +  * [[https://build.nvidia.com/spark/trt-llm|NVIDIA Build – TensorRT-LLM for Inference on DGX Spark]]
 +  * [[https://build.nvidia.com/spark/vllm|NVIDIA Build – vLLM for Inference on DGX Spark]]
 +  * [[https://build.nvidia.com/spark/lm-studio|NVIDIA Build – LM Studio on DGX Spark]]
 +  * [[https://build.nvidia.com/spark/multi-modal-inference|NVIDIA Build – Multi-modal Inference on DGX Spark]]
 +  * [[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next – model card]]
 +  * [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8 – model card]]
 +  * [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10 – komunitní kvantizace pro DGX Spark]]
  
  • ai/hardware/nvidia-dgx-spark.1777610204.txt.gz
  • Poslední úprava: 01.05.2026 06:36
  • autor: Petr Nosek