Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- ai:hardware:nvidia-dgx-spark [01.05.2026 06:36] – Založení článku o NVIDIA DGX Spark Petr Nosek
+++ ai:hardware:nvidia-dgx-spark [01.05.2026 06:49] (aktuální) – Doplnění zdokumentovaných modelů a Qwen3 Coder Next Petr Nosek
@@ Řádek 41: / Řádek 41: @@
 Tyto limity je potřeba číst jako horní technické scénáře závislé na přesnosti, kvantizaci, runtime a konkrétním modelu. Tvrzení „model má 200B parametrů“ samo o sobě neříká, jak rychle poběží, jak dlouhý kontext půjde prakticky používat ani jak pohodlný bude fine-tuning.
+===== Zdokumentované modely =====
+NVIDIA nemá jednu univerzální stránku se všemi modely pro DGX Spark. Konkrétní modely jsou ale uvedené v jednotlivých playboocích a dokumentaci pro runtime. Nejdůležitější jsou [[https://build.nvidia.com/spark/trt-llm|TensorRT-LLM playbook]], [[https://build.nvidia.com/spark/vllm|vLLM playbook]], [[https://build.nvidia.com/spark/lm-studio|LM Studio playbook]] a [[https://build.nvidia.com/spark/multi-modal-inference|Multi-modal Inference playbook]].
+^ Model ^ Runtime / zdroj ^ Poznámka ^
+| Nemotron-3-Nano-Omni-30B-A3B-Reasoning | TensorRT-LLM, vLLM | BF16, FP8 a NVFP4 varianty |
+| Nemotron-3-Super-120B | TensorRT-LLM, vLLM | NVFP4 |
+| GPT-OSS-20B | TensorRT-LLM, vLLM, LM Studio | MXFP4 |
+| GPT-OSS-120B | TensorRT-LLM, vLLM, LM Studio | MXFP4; jeden z velkých lokálních scénářů |
+| Llama-3.1-8B-Instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
+| Llama-3.3-70B-Instruct | TensorRT-LLM, vLLM | NVFP4 |
+| Qwen3-8B / 14B / 32B | TensorRT-LLM, vLLM | FP8 nebo NVFP4 podle varianty |
+| Qwen3-30B-A3B | TensorRT-LLM | NVFP4 |
+| Qwen3-235B-A22B | TensorRT-LLM | v matici uvedeno jako „two Sparks only“ |
+| Qwen2.5-VL-7B-Instruct | vLLM | NVFP4; vision-language model |
+| Phi-4-multimodal-instruct | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
+| Phi-4-reasoning-plus | TensorRT-LLM, vLLM | FP8 nebo NVFP4 |
+| Gemma 4 31B / 26B / menší varianty | vLLM | base nebo NVFP4 podle varianty |
+| Qwen3.6-35B-A3B | LM Studio | uvedeno jako podporovaný model v LM Studio playbooku |
+| FLUX.1 a SDXL | Multi-modal Inference playbook | diffusion modely pro text-to-image přes TensorRT |
+Tato tabulka je praktický výtah ze zdokumentovaných playbooků, ne vyčerpávající seznam všeho, co lze na zařízení spustit. Pokud model běží přes vLLM, SGLang, TensorRT-LLM, LM Studio, Ollama nebo llama.cpp a vejde se do paměti v použité kvantizaci, může být použitelný i bez explicitní zmínky v NVIDIA matici. U takových modelů je ale potřeba ověřit konkrétní runtime, kvantizaci a nastavení.
+==== Qwen3 Coder Next ====
+[[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next]] je open-weight model od Qwen/Alibaba určený pro coding agenty a lokální vývoj. Model má celkem 80B parametrů, ale jde o MoE architekturu s přibližně 3B aktivovanými parametry na token. Nativní kontext je 262 144 tokenů a model je navržený pro dlouhé programátorské úlohy, tool calling, práci v CLI/IDE prostředích a obnovu po chybách při agentním běhu.
+Pro praktické nasazení existuje oficiální [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8]] varianta. Model card uvádí podporu pro vLLM od verze 0.15.0 a SGLang od verze 0.5.8, včetně OpenAI-kompatibilního API a parseru pro tool calling.
+NVIDIA ho nemá v hlavních TensorRT-LLM/vLLM model support matrix tabulkách mezi playbook modely, ale používá ho v oficiálním developer blogu k benchmarku agentních workloadů na DGX Spark. V tomto článku je uvedený jako „Qwen3 Coder Next 80B FP8 with vLLM“ a NVIDIA u něj měří dlouhý kontext 128K vstupních tokenů a 1K výstupních tokenů. To je důležité, protože nejde jen o hypotetickou kompatibilitu – NVIDIA na něm ukazuje konkrétní běh na DGX Spark.
+Existují i komunitní kvantizace přímo cílené na GB10, například [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10]]. Tato model card uvádí NVFP4 kvantizaci pro NVIDIA DGX Spark, velikost modelu na disku okolo 45,9 GB a testování na jednom DGX Spark s 128 GB unified memory. Je to ale komunitní zdroj, ne oficiální NVIDIA ani Qwen vydání.
+Praktický závěr: Qwen3-Coder-Next dává pro DGX Spark smysl jako lokální model pro coding agenty. Bezpečnější výchozí varianta je oficiální FP8 model od Qwen přes vLLM nebo SGLang. NVFP4-GB10 varianta může být zajímavá kvůli paměti a rychlosti na DGX Spark, ale je potřeba ji brát jako komunitně připravenou kvantizaci a ověřit kvalitu na vlastních úlohách.
 ===== Vhodné použití =====
@@ Řádek 70: / Řádek 105: @@
   * [[https://www.nvidia.com/en-us/products/workstations/dgx-spark/|NVIDIA DGX Spark – oficiální produktová stránka]]
   * [[https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/|NVIDIA Developer Blog – Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark]]
+  * [[https://build.nvidia.com/spark/trt-llm|NVIDIA Build – TensorRT-LLM for Inference on DGX Spark]]
+  * [[https://build.nvidia.com/spark/vllm|NVIDIA Build – vLLM for Inference on DGX Spark]]
+  * [[https://build.nvidia.com/spark/lm-studio|NVIDIA Build – LM Studio on DGX Spark]]
+  * [[https://build.nvidia.com/spark/multi-modal-inference|NVIDIA Build – Multi-modal Inference on DGX Spark]]
+  * [[https://huggingface.co/Qwen/Qwen3-Coder-Next|Qwen3-Coder-Next – model card]]
+  * [[https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8|Qwen3-Coder-Next-FP8 – model card]]
+  * [[https://huggingface.co/saricles/Qwen3-Coder-Next-NVFP4-GB10|Qwen3-Coder-Next-NVFP4-GB10 – komunitní kvantizace pro DGX Spark]]