Lokální LLM na GPU: grafické karty, llama.cpp a agentic coding [Wiki]

Tato stránka je pouze pro čtení. Můžete si pouze prohlédnout zdrojový kód, ale ne ho měnit. Zeptejte se správce, pokud si myslíte, že něco není v pořádku.
====== Lokální LLM na GPU: grafické karty, llama.cpp a agentic coding ======

//Vytvořeno: **3.5.2026** | Aktualizováno: **~~LASTMOD~~**//

Zápisek z videa [[https://www.youtube.com/watch?v=atDqnXmOJT8|Srigi – Agentic coding (vibing) na grafickej karte]] o tom, jak vybrat GPU pro lokální provoz LLM, jak nainstalovat llama.cpp na Windows a jak s lokálním modelem pracovat při agentic codingu.

{{youtube>atDqnXmOJT8?}}

===== GPU přehled a klíčový parametr: datová propustnost =====

Při výběru hardwaru pro lokální AI modely není nejdůležitější čistý výpočetní výkon GPU, ale **datová propustnost paměti (memory bandwidth)** a její kapacita. Propustnost přímo určuje rychlost generování tokenů při inferenci.

Minimum pro smysluplnou práci s pokročilými programovacími agenty je **24 GB VRAM** – karty s 12 nebo 16 GB nestačí kvůli malému kontextovému oknu. Pro modely velikosti 14B–32B parametrů se 24 GB pohybuje na hranici využitelnosti.

^ GPU / Zařízení ^ VRAM ^ Propustnost ^ Poznámka ^
| **RTX 5090** | 32 GB | ~2 TB/s | Extrémně rychlá, ideální pro AI, aktuálně předražená |
| **RTX 4090** | 24 GB | ~1 TB/s | Doporučený standard pro lokální běh 32B modelů |
| **RTX 5080** | 16 GB | Vyšší než 4090 | Omezená kapacitou – nevejde se 32B model |
| **RTX 6000 Ada** | 48 GB | Nižší než 4090 | Větší modely, ale pomalejší inference |
| **MacBook Air/Pro** | Různá | Velmi nízká | Apple Silicon zaostává v propustnosti za dedikovanými GPU |
| **Mac Studio** | Až 128+ GB | ~1 TB/s | Dosahuje rychlosti RTX 4090, ale za výrazně vyšší cenu (okolo 10 000 $) |

===== Konkrétní zařízení =====

Kromě desktopových GPU jsou k dispozici i specializovaná zařízení:

  * **[[ai:hardware:nvidia-dgx-spark|NVIDIA DGX Spark]]** – Kompaktní krabička se 128 GB sjednocené paměti. Nevýhodou je výrazně nižší propustnost paměti (273 GB/s) oproti desktopovým GPU (~1 TB/s), což vede k pomalejší odezvě při inferenci.
  * **Externí GPU (eGPU)** – Možné řešení pro notebooky, ale limituje ho rychlost sběrnice.
  * **Doporučený setup:** Herní PC s RTX 4090 připojené k síti jako server, ke kterému se přistupuje z notebooku.

===== Instalace llama.cpp na Windows =====

Autor důrazně varuje před používáním [[https://ollama.com/|Ollama]] (označuje ho za proprietární obálku) a doporučuje přímé použití **[[https://github.com/ggerganov/llama.cpp|llama.cpp]]**.

==== Krok za krokem ====

**1. Ovladače NVIDIA**\\
Stačí standardní herní ovladače – není potřeba speciální Studio nebo Enterprise edice.

**2. Undervolting přes MSI Afterburner**\\
LLM při generování odebírá stovky wattů, proto je vhodné kartu chránit před dlouhodobou zátěží:

  * Otevřít **Voltage Frequency Curve Editor** zkratkou ''Ctrl+F''
  * Snížit napětí (např. z 1050 mV na 975 mV) a mírně upravit takt jádra a paměti
  * Cíl: snížit spotřebu o 50–100 W a teplotu bez ztráty výkonu

**3. Stažení llama.cpp**\\
Z [[https://github.com/ggerganov/llama.cpp/releases|GitHub releases]] stáhnout binárky pro CUDA 12. Release obsahuje 3 specifické DLL soubory (CUDA knihovny) – jsou součástí archivu.

> **⚠ Pozor:** Windows Defender může tyto DLL smazat jako falešný poplach (podobnost s krypto-malwarem). Je nutné dočasně vypnout ochranu nebo nastavit výjimku pro složku.

**4. Spuštění serveru**\\
Použít soubor ''llama-server.exe'':

<code bash>
llama-server.exe --model [cesta_k_modelu] --n-gpu-layers 99 --ctx-size 25000 --host 0.0.0.0 --port 8080
</code>

Parametr ''%%--n-gpu-layers 99%%'' zajistí načtení celého modelu do VRAM. ''%%--ctx-size%%'' nastavuje délku kontextového okna v tokenech.

===== Výběr modelu: doporučení a kvantizace =====

==== Doporučené modely pro kódování ====

  * **Qwen 2.5 Coder (Instruct)** – Špičkový model od Alibaby, fine-tuningovaný pro programování a práci s nástroji (tool calling s podporou chat template).
  * **DeepSeek Coder (14B)** – Výborný „thinking" model, který o problému uvažuje před generováním kódu.
  * **Josef Feed (14B)** – Aktuálně doporučovaný model, který zvládá pomoc s kódem i při menší velikosti.

==== Kvantizace a výběr souboru na Hugging Face ====

Modely ve formátu GGUF jsou k dispozici například v repozitáři [[https://huggingface.co/mradermacher|mradermacher]] na Hugging Face.

Doporučená nastavení:

  * **I1 (Imatrix / Weighted quants)** – Vždy preferovat tyto verze. Jsou přesnější díky multiprechodové optimalizaci vah.
  * **Q4_K_M nebo IQ4_XS** – Ideální poměr mezi velikostí a kvalitou. 4-bitová kvantizace snižuje nároky na paměť přibližně 8× oproti Float32 při minimální ztrátě přesnosti (1–2 %).

===== Agentic coding v praxi =====

Agentic coding znamená, že LLM nepíše jen útržky kódu, ale aktivně pracuje s celými soubory jako agent – čte je, upravuje a spouští příkazy.

==== Setup ====

  * **Nástroj:** VS Code extension **Roo Code** – v nastavení zvolit „OpenAI Compatible" a zadat IP adresu a port lokálního ''llama-server''.
  * **Kontextové okno:** Kritický parametr. Pro RTX 4090 a 32B model je bezpečné nastavit přibližně 19 000–25 000 tokenů.

==== Přetečení kontextu ====

Pokud kontext přeteče kapacitu VRAM, model začne halucinovat – například generuje nekonečné řady ''div'' tagů nebo jen opakující se tečky. Řešení:

  - Okamžitě ukončit generování
  - Snížit hodnotu ''%%--ctx-size%%'' a restartovat server
  - Případně přejít na menší model

==== Promptování ====

Lepší výsledky přináší připravit modelu plán před samotnou úlohou. Příklad: „Nejdříve vyextrahuj kód do nového souboru, pak ho importuj, až pak smaž původní soubor."

===== Akční body =====

  - **Zkontrolovat VRAM** stávající grafické karty (minimum 14 GB pro první pokusy, 24 GB pro praxi)
  - **Nastavit MSI Afterburner** – undervolting pro ochranu karty při dlouhodobé 100% zátěži
  - **Stáhnout llama-server** – aktuální release llama.cpp z GitHubu (verze pro CUDA 12)
  - **Otestovat Qwen 2.5 Coder** (14B nebo 32B) ve verzi I1 Q4_K_M z Hugging Face
  - **Propojit s IDE** – nainstalovat Roo Code do VS Code a nakonfigurovat lokální endpoint

===== Zdroje =====

  * [[https://www.youtube.com/watch?v=atDqnXmOJT8|Srigi – Agentic coding (vibing) na grafickej karte (YouTube)]]
  * [[https://github.com/ggerganov/llama.cpp|llama.cpp – GitHub]]
  * [[https://github.com/ggerganov/llama.cpp/releases|llama.cpp – Releases (binárky pro Windows/CUDA)]]
  * [[https://huggingface.co/mradermacher|mradermacher – Hugging Face (GGUF kvantizace)]]
  * [[https://ollama.com/|Ollama]]
  * [[ai:hardware:nvidia-dgx-spark|NVIDIA DGX Spark – zápisek na této wiki]]