Vytvořeno: 3.5.2026 | Aktualizováno: 03.05.2026 20:33
Zápisek z videa Srigi – Agentic coding (vibing) na grafickej karte o tom, jak vybrat GPU pro lokální provoz LLM, jak nainstalovat llama.cpp na Windows a jak s lokálním modelem pracovat při agentic codingu.
Při výběru hardwaru pro lokální AI modely není nejdůležitější čistý výpočetní výkon GPU, ale datová propustnost paměti (memory bandwidth) a její kapacita. Propustnost přímo určuje rychlost generování tokenů při inferenci.
Minimum pro smysluplnou práci s pokročilými programovacími agenty je 24 GB VRAM – karty s 12 nebo 16 GB nestačí kvůli malému kontextovému oknu. Pro modely velikosti 14B–32B parametrů se 24 GB pohybuje na hranici využitelnosti.
| GPU / Zařízení | VRAM | Propustnost | Poznámka |
|---|---|---|---|
| RTX 5090 | 32 GB | ~2 TB/s | Extrémně rychlá, ideální pro AI, aktuálně předražená |
| RTX 4090 | 24 GB | ~1 TB/s | Doporučený standard pro lokální běh 32B modelů |
| RTX 5080 | 16 GB | Vyšší než 4090 | Omezená kapacitou – nevejde se 32B model |
| RTX 6000 Ada | 48 GB | Nižší než 4090 | Větší modely, ale pomalejší inference |
| MacBook Air/Pro | Různá | Velmi nízká | Apple Silicon zaostává v propustnosti za dedikovanými GPU |
| Mac Studio | Až 128+ GB | ~1 TB/s | Dosahuje rychlosti RTX 4090, ale za výrazně vyšší cenu (okolo 10 000 $) |
Kromě desktopových GPU jsou k dispozici i specializovaná zařízení:
Autor důrazně varuje před používáním Ollama (označuje ho za proprietární obálku) a doporučuje přímé použití llama.cpp.
1. Ovladače NVIDIA
Stačí standardní herní ovladače – není potřeba speciální Studio nebo Enterprise edice.
2. Undervolting přes MSI Afterburner
LLM při generování odebírá stovky wattů, proto je vhodné kartu chránit před dlouhodobou zátěží:
Ctrl+F
3. Stažení llama.cpp
Z GitHub releases stáhnout binárky pro CUDA 12. Release obsahuje 3 specifické DLL soubory (CUDA knihovny) – jsou součástí archivu.
⚠ Pozor: Windows Defender může tyto DLL smazat jako falešný poplach (podobnost s krypto-malwarem). Je nutné dočasně vypnout ochranu nebo nastavit výjimku pro složku.
4. Spuštění serveru
Použít soubor llama-server.exe:
llama-server.exe --model [cesta_k_modelu] --n-gpu-layers 99 --ctx-size 25000 --host 0.0.0.0 --port 8080
Parametr --n-gpu-layers 99 zajistí načtení celého modelu do VRAM. --ctx-size nastavuje délku kontextového okna v tokenech.
Modely ve formátu GGUF jsou k dispozici například v repozitáři mradermacher na Hugging Face.
Doporučená nastavení:
Agentic coding znamená, že LLM nepíše jen útržky kódu, ale aktivně pracuje s celými soubory jako agent – čte je, upravuje a spouští příkazy.
llama-server.
Pokud kontext přeteče kapacitu VRAM, model začne halucinovat – například generuje nekonečné řady div tagů nebo jen opakující se tečky. Řešení:
--ctx-size a restartovat serverLepší výsledky přináší připravit modelu plán před samotnou úlohou. Příklad: „Nejdříve vyextrahuj kód do nového souboru, pak ho importuj, až pak smaž původní soubor.„