Lokální LLM na GPU: grafické karty, llama.cpp a agentic coding
Vytvořeno: 3.5.2026 | Aktualizováno: 03.05.2026 20:33
Zápisek z videa Srigi – Agentic coding (vibing) na grafickej karte o tom, jak vybrat GPU pro lokální provoz LLM, jak nainstalovat llama.cpp na Windows a jak s lokálním modelem pracovat při agentic codingu.
GPU přehled a klíčový parametr: datová propustnost
Při výběru hardwaru pro lokální AI modely není nejdůležitější čistý výpočetní výkon GPU, ale datová propustnost paměti (memory bandwidth) a její kapacita. Propustnost přímo určuje rychlost generování tokenů při inferenci.
Minimum pro smysluplnou práci s pokročilými programovacími agenty je 24 GB VRAM – karty s 12 nebo 16 GB nestačí kvůli malému kontextovému oknu. Pro modely velikosti 14B–32B parametrů se 24 GB pohybuje na hranici využitelnosti.
| GPU / Zařízení | VRAM | Propustnost | Poznámka |
|---|---|---|---|
| RTX 5090 | 32 GB | ~2 TB/s | Extrémně rychlá, ideální pro AI, aktuálně předražená |
| RTX 4090 | 24 GB | ~1 TB/s | Doporučený standard pro lokální běh 32B modelů |
| RTX 5080 | 16 GB | Vyšší než 4090 | Omezená kapacitou – nevejde se 32B model |
| RTX 6000 Ada | 48 GB | Nižší než 4090 | Větší modely, ale pomalejší inference |
| MacBook Air/Pro | Různá | Velmi nízká | Apple Silicon zaostává v propustnosti za dedikovanými GPU |
| Mac Studio | Až 128+ GB | ~1 TB/s | Dosahuje rychlosti RTX 4090, ale za výrazně vyšší cenu (okolo 10 000 $) |
Konkrétní zařízení
Kromě desktopových GPU jsou k dispozici i specializovaná zařízení:
- NVIDIA DGX Spark – Kompaktní krabička se 128 GB sjednocené paměti. Nevýhodou je výrazně nižší propustnost paměti (273 GB/s) oproti desktopovým GPU (~1 TB/s), což vede k pomalejší odezvě při inferenci.
- Externí GPU (eGPU) – Možné řešení pro notebooky, ale limituje ho rychlost sběrnice.
- Doporučený setup: Herní PC s RTX 4090 připojené k síti jako server, ke kterému se přistupuje z notebooku.
Instalace llama.cpp na Windows
Autor důrazně varuje před používáním Ollama (označuje ho za proprietární obálku) a doporučuje přímé použití llama.cpp.
Krok za krokem
1. Ovladače NVIDIA
Stačí standardní herní ovladače – není potřeba speciální Studio nebo Enterprise edice.
2. Undervolting přes MSI Afterburner
LLM při generování odebírá stovky wattů, proto je vhodné kartu chránit před dlouhodobou zátěží:
- Otevřít Voltage Frequency Curve Editor zkratkou
Ctrl+F - Snížit napětí (např. z 1050 mV na 975 mV) a mírně upravit takt jádra a paměti
- Cíl: snížit spotřebu o 50–100 W a teplotu bez ztráty výkonu
3. Stažení llama.cpp
Z GitHub releases stáhnout binárky pro CUDA 12. Release obsahuje 3 specifické DLL soubory (CUDA knihovny) – jsou součástí archivu.
⚠ Pozor: Windows Defender může tyto DLL smazat jako falešný poplach (podobnost s krypto-malwarem). Je nutné dočasně vypnout ochranu nebo nastavit výjimku pro složku.
4. Spuštění serveru
Použít soubor llama-server.exe:
llama-server.exe --model [cesta_k_modelu] --n-gpu-layers 99 --ctx-size 25000 --host 0.0.0.0 --port 8080
Parametr --n-gpu-layers 99 zajistí načtení celého modelu do VRAM. --ctx-size nastavuje délku kontextového okna v tokenech.
Výběr modelu: doporučení a kvantizace
Doporučené modely pro kódování
- Qwen 2.5 Coder (Instruct) – Špičkový model od Alibaby, fine-tuningovaný pro programování a práci s nástroji (tool calling s podporou chat template).
- DeepSeek Coder (14B) – Výborný „thinking„ model, který o problému uvažuje před generováním kódu.
- Josef Feed (14B) – Aktuálně doporučovaný model, který zvládá pomoc s kódem i při menší velikosti.
Kvantizace a výběr souboru na Hugging Face
Modely ve formátu GGUF jsou k dispozici například v repozitáři mradermacher na Hugging Face.
Doporučená nastavení:
- I1 (Imatrix / Weighted quants) – Vždy preferovat tyto verze. Jsou přesnější díky multiprechodové optimalizaci vah.
- Q4_K_M nebo IQ4_XS – Ideální poměr mezi velikostí a kvalitou. 4-bitová kvantizace snižuje nároky na paměť přibližně 8× oproti Float32 při minimální ztrátě přesnosti (1–2 %).
Agentic coding v praxi
Agentic coding znamená, že LLM nepíše jen útržky kódu, ale aktivně pracuje s celými soubory jako agent – čte je, upravuje a spouští příkazy.
Setup
- Nástroj: VS Code extension Roo Code – v nastavení zvolit „OpenAI Compatible“ a zadat IP adresu a port lokálního
llama-server. - Kontextové okno: Kritický parametr. Pro RTX 4090 a 32B model je bezpečné nastavit přibližně 19 000–25 000 tokenů.
Přetečení kontextu
Pokud kontext přeteče kapacitu VRAM, model začne halucinovat – například generuje nekonečné řady div tagů nebo jen opakující se tečky. Řešení:
- Okamžitě ukončit generování
- Snížit hodnotu
--ctx-sizea restartovat server - Případně přejít na menší model
Promptování
Lepší výsledky přináší připravit modelu plán před samotnou úlohou. Příklad: „Nejdříve vyextrahuj kód do nového souboru, pak ho importuj, až pak smaž původní soubor.„
Akční body
- Zkontrolovat VRAM stávající grafické karty (minimum 14 GB pro první pokusy, 24 GB pro praxi)
- Nastavit MSI Afterburner – undervolting pro ochranu karty při dlouhodobé 100% zátěži
- Stáhnout llama-server – aktuální release llama.cpp z GitHubu (verze pro CUDA 12)
- Otestovat Qwen 2.5 Coder (14B nebo 32B) ve verzi I1 Q4_K_M z Hugging Face
- Propojit s IDE – nainstalovat Roo Code do VS Code a nakonfigurovat lokální endpoint