Lokální LLM na GPU: grafické karty, llama.cpp a agentic coding

Vytvořeno: 3.5.2026 | Aktualizováno: 03.05.2026 20:33

Zápisek z videa Srigi – Agentic coding (vibing) na grafickej karte o tom, jak vybrat GPU pro lokální provoz LLM, jak nainstalovat llama.cpp na Windows a jak s lokálním modelem pracovat při agentic codingu.

GPU přehled a klíčový parametr: datová propustnost

Při výběru hardwaru pro lokální AI modely není nejdůležitější čistý výpočetní výkon GPU, ale datová propustnost paměti (memory bandwidth) a její kapacita. Propustnost přímo určuje rychlost generování tokenů při inferenci.

Minimum pro smysluplnou práci s pokročilými programovacími agenty je 24 GB VRAM – karty s 12 nebo 16 GB nestačí kvůli malému kontextovému oknu. Pro modely velikosti 14B–32B parametrů se 24 GB pohybuje na hranici využitelnosti.

GPU / Zařízení	VRAM	Propustnost	Poznámka
RTX 5090	32 GB	~2 TB/s	Extrémně rychlá, ideální pro AI, aktuálně předražená
RTX 4090	24 GB	~1 TB/s	Doporučený standard pro lokální běh 32B modelů
RTX 5080	16 GB	Vyšší než 4090	Omezená kapacitou – nevejde se 32B model
RTX 6000 Ada	48 GB	Nižší než 4090	Větší modely, ale pomalejší inference
MacBook Air/Pro	Různá	Velmi nízká	Apple Silicon zaostává v propustnosti za dedikovanými GPU
Mac Studio	Až 128+ GB	~1 TB/s	Dosahuje rychlosti RTX 4090, ale za výrazně vyšší cenu (okolo 10 000 $)

Konkrétní zařízení

Kromě desktopových GPU jsou k dispozici i specializovaná zařízení:

NVIDIA DGX Spark – Kompaktní krabička se 128 GB sjednocené paměti. Nevýhodou je výrazně nižší propustnost paměti (273 GB/s) oproti desktopovým GPU (~1 TB/s), což vede k pomalejší odezvě při inferenci.
Externí GPU (eGPU) – Možné řešení pro notebooky, ale limituje ho rychlost sběrnice.
Doporučený setup: Herní PC s RTX 4090 připojené k síti jako server, ke kterému se přistupuje z notebooku.

Instalace llama.cpp na Windows

Autor důrazně varuje před používáním Ollama (označuje ho za proprietární obálku) a doporučuje přímé použití llama.cpp.

Krok za krokem

1. Ovladače NVIDIA
Stačí standardní herní ovladače – není potřeba speciální Studio nebo Enterprise edice.

2. Undervolting přes MSI Afterburner
LLM při generování odebírá stovky wattů, proto je vhodné kartu chránit před dlouhodobou zátěží:

Otevřít Voltage Frequency Curve Editor zkratkou Ctrl+F
Snížit napětí (např. z 1050 mV na 975 mV) a mírně upravit takt jádra a paměti
Cíl: snížit spotřebu o 50–100 W a teplotu bez ztráty výkonu

3. Stažení llama.cpp
Z GitHub releases stáhnout binárky pro CUDA 12. Release obsahuje 3 specifické DLL soubory (CUDA knihovny) – jsou součástí archivu.

⚠ Pozor: Windows Defender může tyto DLL smazat jako falešný poplach (podobnost s krypto-malwarem). Je nutné dočasně vypnout ochranu nebo nastavit výjimku pro složku.

4. Spuštění serveru
Použít soubor llama-server.exe:

llama-server.exe --model [cesta_k_modelu] --n-gpu-layers 99 --ctx-size 25000 --host 0.0.0.0 --port 8080

Parametr --n-gpu-layers 99 zajistí načtení celého modelu do VRAM. --ctx-size nastavuje délku kontextového okna v tokenech.

Výběr modelu: doporučení a kvantizace

Doporučené modely pro kódování

Qwen 2.5 Coder (Instruct) – Špičkový model od Alibaby, fine-tuningovaný pro programování a práci s nástroji (tool calling s podporou chat template).
DeepSeek Coder (14B) – Výborný „thinking„ model, který o problému uvažuje před generováním kódu.
Josef Feed (14B) – Aktuálně doporučovaný model, který zvládá pomoc s kódem i při menší velikosti.

Kvantizace a výběr souboru na Hugging Face

Modely ve formátu GGUF jsou k dispozici například v repozitáři mradermacher na Hugging Face.

Doporučená nastavení:

I1 (Imatrix / Weighted quants) – Vždy preferovat tyto verze. Jsou přesnější díky multiprechodové optimalizaci vah.
Q4_K_M nebo IQ4_XS – Ideální poměr mezi velikostí a kvalitou. 4-bitová kvantizace snižuje nároky na paměť přibližně 8× oproti Float32 při minimální ztrátě přesnosti (1–2 %).

Agentic coding v praxi

Agentic coding znamená, že LLM nepíše jen útržky kódu, ale aktivně pracuje s celými soubory jako agent – čte je, upravuje a spouští příkazy.

Setup

Nástroj: VS Code extension Roo Code – v nastavení zvolit „OpenAI Compatible“ a zadat IP adresu a port lokálního llama-server.
Kontextové okno: Kritický parametr. Pro RTX 4090 a 32B model je bezpečné nastavit přibližně 19 000–25 000 tokenů.

Přetečení kontextu

Pokud kontext přeteče kapacitu VRAM, model začne halucinovat – například generuje nekonečné řady div tagů nebo jen opakující se tečky. Řešení:

Okamžitě ukončit generování
Snížit hodnotu --ctx-size a restartovat server
Případně přejít na menší model

Promptování

Lepší výsledky přináší připravit modelu plán před samotnou úlohou. Příklad: „Nejdříve vyextrahuj kód do nového souboru, pak ho importuj, až pak smaž původní soubor.„

Akční body

Zkontrolovat VRAM stávající grafické karty (minimum 14 GB pro první pokusy, 24 GB pro praxi)
Nastavit MSI Afterburner – undervolting pro ochranu karty při dlouhodobé 100% zátěži
Stáhnout llama-server – aktuální release llama.cpp z GitHubu (verze pro CUDA 12)
Otestovat Qwen 2.5 Coder (14B nebo 32B) ve verzi I1 Q4_K_M z Hugging Face
Propojit s IDE – nainstalovat Roo Code do VS Code a nakonfigurovat lokální endpoint

Obsah