Lokální LLM na GPU: grafické karty, llama.cpp a agentic coding

Vytvořeno: 3.5.2026 | Aktualizováno: 03.05.2026 20:33

Zápisek z videa Srigi – Agentic coding (vibing) na grafickej karte o tom, jak vybrat GPU pro lokální provoz LLM, jak nainstalovat llama.cpp na Windows a jak s lokálním modelem pracovat při agentic codingu.

Při výběru hardwaru pro lokální AI modely není nejdůležitější čistý výpočetní výkon GPU, ale datová propustnost paměti (memory bandwidth) a její kapacita. Propustnost přímo určuje rychlost generování tokenů při inferenci.

Minimum pro smysluplnou práci s pokročilými programovacími agenty je 24 GB VRAM – karty s 12 nebo 16 GB nestačí kvůli malému kontextovému oknu. Pro modely velikosti 14B–32B parametrů se 24 GB pohybuje na hranici využitelnosti.

GPU / Zařízení VRAM Propustnost Poznámka
RTX 5090 32 GB ~2 TB/s Extrémně rychlá, ideální pro AI, aktuálně předražená
RTX 4090 24 GB ~1 TB/s Doporučený standard pro lokální běh 32B modelů
RTX 5080 16 GB Vyšší než 4090 Omezená kapacitou – nevejde se 32B model
RTX 6000 Ada 48 GB Nižší než 4090 Větší modely, ale pomalejší inference
MacBook Air/Pro Různá Velmi nízká Apple Silicon zaostává v propustnosti za dedikovanými GPU
Mac Studio Až 128+ GB ~1 TB/s Dosahuje rychlosti RTX 4090, ale za výrazně vyšší cenu (okolo 10 000 $)

Kromě desktopových GPU jsou k dispozici i specializovaná zařízení:

  • NVIDIA DGX Spark – Kompaktní krabička se 128 GB sjednocené paměti. Nevýhodou je výrazně nižší propustnost paměti (273 GB/s) oproti desktopovým GPU (~1 TB/s), což vede k pomalejší odezvě při inferenci.
  • Externí GPU (eGPU) – Možné řešení pro notebooky, ale limituje ho rychlost sběrnice.
  • Doporučený setup: Herní PC s RTX 4090 připojené k síti jako server, ke kterému se přistupuje z notebooku.

Autor důrazně varuje před používáním Ollama (označuje ho za proprietární obálku) a doporučuje přímé použití llama.cpp.

1. Ovladače NVIDIA
Stačí standardní herní ovladače – není potřeba speciální Studio nebo Enterprise edice.

2. Undervolting přes MSI Afterburner
LLM při generování odebírá stovky wattů, proto je vhodné kartu chránit před dlouhodobou zátěží:

  • Otevřít Voltage Frequency Curve Editor zkratkou Ctrl+F
  • Snížit napětí (např. z 1050 mV na 975 mV) a mírně upravit takt jádra a paměti
  • Cíl: snížit spotřebu o 50–100 W a teplotu bez ztráty výkonu

3. Stažení llama.cpp
Z GitHub releases stáhnout binárky pro CUDA 12. Release obsahuje 3 specifické DLL soubory (CUDA knihovny) – jsou součástí archivu.

⚠ Pozor: Windows Defender může tyto DLL smazat jako falešný poplach (podobnost s krypto-malwarem). Je nutné dočasně vypnout ochranu nebo nastavit výjimku pro složku.

4. Spuštění serveru
Použít soubor llama-server.exe:

llama-server.exe --model [cesta_k_modelu] --n-gpu-layers 99 --ctx-size 25000 --host 0.0.0.0 --port 8080

Parametr --n-gpu-layers 99 zajistí načtení celého modelu do VRAM. --ctx-size nastavuje délku kontextového okna v tokenech.

  • Qwen 2.5 Coder (Instruct) – Špičkový model od Alibaby, fine-tuningovaný pro programování a práci s nástroji (tool calling s podporou chat template).
  • DeepSeek Coder (14B) – Výborný „thinking„ model, který o problému uvažuje před generováním kódu.
  • Josef Feed (14B) – Aktuálně doporučovaný model, který zvládá pomoc s kódem i při menší velikosti.

Modely ve formátu GGUF jsou k dispozici například v repozitáři mradermacher na Hugging Face.

Doporučená nastavení:

  • I1 (Imatrix / Weighted quants) – Vždy preferovat tyto verze. Jsou přesnější díky multiprechodové optimalizaci vah.
  • Q4_K_M nebo IQ4_XS – Ideální poměr mezi velikostí a kvalitou. 4-bitová kvantizace snižuje nároky na paměť přibližně 8× oproti Float32 při minimální ztrátě přesnosti (1–2 %).

Agentic coding znamená, že LLM nepíše jen útržky kódu, ale aktivně pracuje s celými soubory jako agent – čte je, upravuje a spouští příkazy.

  • Nástroj: VS Code extension Roo Code – v nastavení zvolit „OpenAI Compatible“ a zadat IP adresu a port lokálního llama-server.
  • Kontextové okno: Kritický parametr. Pro RTX 4090 a 32B model je bezpečné nastavit přibližně 19 000–25 000 tokenů.

Pokud kontext přeteče kapacitu VRAM, model začne halucinovat – například generuje nekonečné řady div tagů nebo jen opakující se tečky. Řešení:

  1. Okamžitě ukončit generování
  2. Snížit hodnotu --ctx-size a restartovat server
  3. Případně přejít na menší model

Lepší výsledky přináší připravit modelu plán před samotnou úlohou. Příklad: „Nejdříve vyextrahuj kód do nového souboru, pak ho importuj, až pak smaž původní soubor.„

  1. Zkontrolovat VRAM stávající grafické karty (minimum 14 GB pro první pokusy, 24 GB pro praxi)
  2. Nastavit MSI Afterburner – undervolting pro ochranu karty při dlouhodobé 100% zátěži
  3. Stáhnout llama-server – aktuální release llama.cpp z GitHubu (verze pro CUDA 12)
  4. Otestovat Qwen 2.5 Coder (14B nebo 32B) ve verzi I1 Q4_K_M z Hugging Face
  5. Propojit s IDE – nainstalovat Roo Code do VS Code a nakonfigurovat lokální endpoint
  • ai/hardware/lokalni-llm-na-gpu.txt
  • Poslední úprava: 03.05.2026 20:33
  • autor: Petr Nosek