Zobrazit stránkuStarší verzeZpětné odkazyNahoru Tato stránka je pouze pro čtení. Můžete si pouze prohlédnout zdrojový kód, ale ne ho měnit. Zeptejte se správce, pokud si myslíte, že něco není v pořádku. ====== Lokální LLM na GPU: grafické karty, llama.cpp a agentic coding ====== //Vytvořeno: **3.5.2026** | Aktualizováno: **~~LASTMOD~~**// Zápisek z videa [[https://www.youtube.com/watch?v=atDqnXmOJT8|Srigi – Agentic coding (vibing) na grafickej karte]] o tom, jak vybrat GPU pro lokální provoz LLM, jak nainstalovat llama.cpp na Windows a jak s lokálním modelem pracovat při agentic codingu. {{youtube>atDqnXmOJT8?}} ===== GPU přehled a klíčový parametr: datová propustnost ===== Při výběru hardwaru pro lokální AI modely není nejdůležitější čistý výpočetní výkon GPU, ale **datová propustnost paměti (memory bandwidth)** a její kapacita. Propustnost přímo určuje rychlost generování tokenů při inferenci. Minimum pro smysluplnou práci s pokročilými programovacími agenty je **24 GB VRAM** – karty s 12 nebo 16 GB nestačí kvůli malému kontextovému oknu. Pro modely velikosti 14B–32B parametrů se 24 GB pohybuje na hranici využitelnosti. ^ GPU / Zařízení ^ VRAM ^ Propustnost ^ Poznámka ^ | **RTX 5090** | 32 GB | ~2 TB/s | Extrémně rychlá, ideální pro AI, aktuálně předražená | | **RTX 4090** | 24 GB | ~1 TB/s | Doporučený standard pro lokální běh 32B modelů | | **RTX 5080** | 16 GB | Vyšší než 4090 | Omezená kapacitou – nevejde se 32B model | | **RTX 6000 Ada** | 48 GB | Nižší než 4090 | Větší modely, ale pomalejší inference | | **MacBook Air/Pro** | Různá | Velmi nízká | Apple Silicon zaostává v propustnosti za dedikovanými GPU | | **Mac Studio** | Až 128+ GB | ~1 TB/s | Dosahuje rychlosti RTX 4090, ale za výrazně vyšší cenu (okolo 10 000 $) | ===== Konkrétní zařízení ===== Kromě desktopových GPU jsou k dispozici i specializovaná zařízení: * **[[ai:hardware:nvidia-dgx-spark|NVIDIA DGX Spark]]** – Kompaktní krabička se 128 GB sjednocené paměti. Nevýhodou je výrazně nižší propustnost paměti (273 GB/s) oproti desktopovým GPU (~1 TB/s), což vede k pomalejší odezvě při inferenci. * **Externí GPU (eGPU)** – Možné řešení pro notebooky, ale limituje ho rychlost sběrnice. * **Doporučený setup:** Herní PC s RTX 4090 připojené k síti jako server, ke kterému se přistupuje z notebooku. ===== Instalace llama.cpp na Windows ===== Autor důrazně varuje před používáním [[https://ollama.com/|Ollama]] (označuje ho za proprietární obálku) a doporučuje přímé použití **[[https://github.com/ggerganov/llama.cpp|llama.cpp]]**. ==== Krok za krokem ==== **1. Ovladače NVIDIA**\\ Stačí standardní herní ovladače – není potřeba speciální Studio nebo Enterprise edice. **2. Undervolting přes MSI Afterburner**\\ LLM při generování odebírá stovky wattů, proto je vhodné kartu chránit před dlouhodobou zátěží: * Otevřít **Voltage Frequency Curve Editor** zkratkou ''Ctrl+F'' * Snížit napětí (např. z 1050 mV na 975 mV) a mírně upravit takt jádra a paměti * Cíl: snížit spotřebu o 50–100 W a teplotu bez ztráty výkonu **3. Stažení llama.cpp**\\ Z [[https://github.com/ggerganov/llama.cpp/releases|GitHub releases]] stáhnout binárky pro CUDA 12. Release obsahuje 3 specifické DLL soubory (CUDA knihovny) – jsou součástí archivu. > **⚠ Pozor:** Windows Defender může tyto DLL smazat jako falešný poplach (podobnost s krypto-malwarem). Je nutné dočasně vypnout ochranu nebo nastavit výjimku pro složku. **4. Spuštění serveru**\\ Použít soubor ''llama-server.exe'': <code bash> llama-server.exe --model [cesta_k_modelu] --n-gpu-layers 99 --ctx-size 25000 --host 0.0.0.0 --port 8080 </code> Parametr ''%%--n-gpu-layers 99%%'' zajistí načtení celého modelu do VRAM. ''%%--ctx-size%%'' nastavuje délku kontextového okna v tokenech. ===== Výběr modelu: doporučení a kvantizace ===== ==== Doporučené modely pro kódování ==== * **Qwen 2.5 Coder (Instruct)** – Špičkový model od Alibaby, fine-tuningovaný pro programování a práci s nástroji (tool calling s podporou chat template). * **DeepSeek Coder (14B)** – Výborný „thinking" model, který o problému uvažuje před generováním kódu. * **Josef Feed (14B)** – Aktuálně doporučovaný model, který zvládá pomoc s kódem i při menší velikosti. ==== Kvantizace a výběr souboru na Hugging Face ==== Modely ve formátu GGUF jsou k dispozici například v repozitáři [[https://huggingface.co/mradermacher|mradermacher]] na Hugging Face. Doporučená nastavení: * **I1 (Imatrix / Weighted quants)** – Vždy preferovat tyto verze. Jsou přesnější díky multiprechodové optimalizaci vah. * **Q4_K_M nebo IQ4_XS** – Ideální poměr mezi velikostí a kvalitou. 4-bitová kvantizace snižuje nároky na paměť přibližně 8× oproti Float32 při minimální ztrátě přesnosti (1–2 %). ===== Agentic coding v praxi ===== Agentic coding znamená, že LLM nepíše jen útržky kódu, ale aktivně pracuje s celými soubory jako agent – čte je, upravuje a spouští příkazy. ==== Setup ==== * **Nástroj:** VS Code extension **Roo Code** – v nastavení zvolit „OpenAI Compatible" a zadat IP adresu a port lokálního ''llama-server''. * **Kontextové okno:** Kritický parametr. Pro RTX 4090 a 32B model je bezpečné nastavit přibližně 19 000–25 000 tokenů. ==== Přetečení kontextu ==== Pokud kontext přeteče kapacitu VRAM, model začne halucinovat – například generuje nekonečné řady ''div'' tagů nebo jen opakující se tečky. Řešení: - Okamžitě ukončit generování - Snížit hodnotu ''%%--ctx-size%%'' a restartovat server - Případně přejít na menší model ==== Promptování ==== Lepší výsledky přináší připravit modelu plán před samotnou úlohou. Příklad: „Nejdříve vyextrahuj kód do nového souboru, pak ho importuj, až pak smaž původní soubor." ===== Akční body ===== - **Zkontrolovat VRAM** stávající grafické karty (minimum 14 GB pro první pokusy, 24 GB pro praxi) - **Nastavit MSI Afterburner** – undervolting pro ochranu karty při dlouhodobé 100% zátěži - **Stáhnout llama-server** – aktuální release llama.cpp z GitHubu (verze pro CUDA 12) - **Otestovat Qwen 2.5 Coder** (14B nebo 32B) ve verzi I1 Q4_K_M z Hugging Face - **Propojit s IDE** – nainstalovat Roo Code do VS Code a nakonfigurovat lokální endpoint ===== Zdroje ===== * [[https://www.youtube.com/watch?v=atDqnXmOJT8|Srigi – Agentic coding (vibing) na grafickej karte (YouTube)]] * [[https://github.com/ggerganov/llama.cpp|llama.cpp – GitHub]] * [[https://github.com/ggerganov/llama.cpp/releases|llama.cpp – Releases (binárky pro Windows/CUDA)]] * [[https://huggingface.co/mradermacher|mradermacher – Hugging Face (GGUF kvantizace)]] * [[https://ollama.com/|Ollama]] * [[ai:hardware:nvidia-dgx-spark|NVIDIA DGX Spark – zápisek na této wiki]] ai/hardware/lokalni-llm-na-gpu.txt Poslední úprava: 03.05.2026 20:33autor: Petr Nosek