Obsah

Lokální LLM na GPU: grafické karty, llama.cpp a agentic coding

Vytvořeno: 3.5.2026 | Aktualizováno: 03.05.2026 20:33

Zápisek z videa Srigi – Agentic coding (vibing) na grafickej karte o tom, jak vybrat GPU pro lokální provoz LLM, jak nainstalovat llama.cpp na Windows a jak s lokálním modelem pracovat při agentic codingu.

GPU přehled a klíčový parametr: datová propustnost

Při výběru hardwaru pro lokální AI modely není nejdůležitější čistý výpočetní výkon GPU, ale datová propustnost paměti (memory bandwidth) a její kapacita. Propustnost přímo určuje rychlost generování tokenů při inferenci.

Minimum pro smysluplnou práci s pokročilými programovacími agenty je 24 GB VRAM – karty s 12 nebo 16 GB nestačí kvůli malému kontextovému oknu. Pro modely velikosti 14B–32B parametrů se 24 GB pohybuje na hranici využitelnosti.

GPU / Zařízení VRAM Propustnost Poznámka
RTX 5090 32 GB ~2 TB/s Extrémně rychlá, ideální pro AI, aktuálně předražená
RTX 4090 24 GB ~1 TB/s Doporučený standard pro lokální běh 32B modelů
RTX 5080 16 GB Vyšší než 4090 Omezená kapacitou – nevejde se 32B model
RTX 6000 Ada 48 GB Nižší než 4090 Větší modely, ale pomalejší inference
MacBook Air/Pro Různá Velmi nízká Apple Silicon zaostává v propustnosti za dedikovanými GPU
Mac Studio Až 128+ GB ~1 TB/s Dosahuje rychlosti RTX 4090, ale za výrazně vyšší cenu (okolo 10 000 $)

Konkrétní zařízení

Kromě desktopových GPU jsou k dispozici i specializovaná zařízení:

Instalace llama.cpp na Windows

Autor důrazně varuje před používáním Ollama (označuje ho za proprietární obálku) a doporučuje přímé použití llama.cpp.

Krok za krokem

1. Ovladače NVIDIA
Stačí standardní herní ovladače – není potřeba speciální Studio nebo Enterprise edice.

2. Undervolting přes MSI Afterburner
LLM při generování odebírá stovky wattů, proto je vhodné kartu chránit před dlouhodobou zátěží:

3. Stažení llama.cpp
Z GitHub releases stáhnout binárky pro CUDA 12. Release obsahuje 3 specifické DLL soubory (CUDA knihovny) – jsou součástí archivu.

⚠ Pozor: Windows Defender může tyto DLL smazat jako falešný poplach (podobnost s krypto-malwarem). Je nutné dočasně vypnout ochranu nebo nastavit výjimku pro složku.

4. Spuštění serveru
Použít soubor llama-server.exe:

llama-server.exe --model [cesta_k_modelu] --n-gpu-layers 99 --ctx-size 25000 --host 0.0.0.0 --port 8080

Parametr --n-gpu-layers 99 zajistí načtení celého modelu do VRAM. --ctx-size nastavuje délku kontextového okna v tokenech.

Výběr modelu: doporučení a kvantizace

Doporučené modely pro kódování

Kvantizace a výběr souboru na Hugging Face

Modely ve formátu GGUF jsou k dispozici například v repozitáři mradermacher na Hugging Face.

Doporučená nastavení:

Agentic coding v praxi

Agentic coding znamená, že LLM nepíše jen útržky kódu, ale aktivně pracuje s celými soubory jako agent – čte je, upravuje a spouští příkazy.

Setup

Přetečení kontextu

Pokud kontext přeteče kapacitu VRAM, model začne halucinovat – například generuje nekonečné řady div tagů nebo jen opakující se tečky. Řešení:

  1. Okamžitě ukončit generování
  2. Snížit hodnotu --ctx-size a restartovat server
  3. Případně přejít na menší model

Promptování

Lepší výsledky přináší připravit modelu plán před samotnou úlohou. Příklad: „Nejdříve vyextrahuj kód do nového souboru, pak ho importuj, až pak smaž původní soubor.„

Akční body

  1. Zkontrolovat VRAM stávající grafické karty (minimum 14 GB pro první pokusy, 24 GB pro praxi)
  2. Nastavit MSI Afterburner – undervolting pro ochranu karty při dlouhodobé 100% zátěži
  3. Stáhnout llama-server – aktuální release llama.cpp z GitHubu (verze pro CUDA 12)
  4. Otestovat Qwen 2.5 Coder (14B nebo 32B) ve verzi I1 Q4_K_M z Hugging Face
  5. Propojit s IDE – nainstalovat Roo Code do VS Code a nakonfigurovat lokální endpoint

Zdroje