Llama

Toto je starší verze dokumentu!

llama.cpp je lehký runtime pro lokální běh jazykových modelů a v praxi se kolem něj často řeší i širší téma provozu menších LLM na vlastním hardware. Na této stránce dávají obě vložená videa smysl hlavně jako praktický přehled toho, co jde rozběhat na Raspberry Pi pomocí llama.cpp, Ollamy a modelů stažených z Hugging Face.

Video Lama v malině aneb Provozujeme vlastního AI Chatbota na RaspberryPi ukazuje, že i Raspberry Pi lze použít pro lokální běh menších modelů, pokud se počítá s omezeným výkonem a s kvantizací modelu.

Hlavní praktické poznatky z videa:

llama.cpp dává smysl tam, kde je potřeba jednoduchý a úsporný runtime bez zbytečné režie.
Kritická je velikost modelu v RAM. Na Raspberry Pi je potřeba počítat s kvantizací a s tím, že větší modely budou narážet na paměť i rychlost.
Ve videu se řeší kompilace přes make, převod modelu do formátu použitelného pro llama.cpp a následná kvantizace.
Důležitá je práce se system promptem a s parametry jako temperature, velikost kontextu nebo limit generovaných tokenů.
Zajímavá je možnost vynutit strukturovaný výstup, například validní JSON nebo jiný formální formát.

Co z toho plyne v praxi:

Na Raspberry Pi to dává smysl spíš pro experimenty, výuku, jednoduché specializované chatboty a offline použití.
Čeština je pro malé lokální modely výrazně horší než angličtina. Je potřeba čekat nižší kvalitu odpovědí a víc chyb.
Důležité je chlazení. Dlouhý běh modelu zatěžuje CPU natolik, že bez chladiče nebo aktivního větrání rychle narazí na teplotní limity.

Druhé video Vlastní AI na Raspberry Pi - návod je praktičtější návod na rychlé rozběhání lokální AI pomocí Ollamy a malého modelu TinyLlama.

Ve videu dává smysl hlavně tento minimální postup:

curl -fsSL https://ollama.com/install.sh | sh
ollama run tinyllama
ollama run tinyllama --verbose

Praktické poznatky z videa:

Ollama je pohodlnější cesta než ruční práce s llama.cpp, pokud je cílem model hlavně rychle rozběhat a zkoušet.
Na Raspberry Pi dává smysl zkoušet opravdu malé modely. Ve videu se pracuje s TinyLlama.
Přepínač –verbose se hodí pro kontrolu rychlosti generování a počtu tokenů.
Pro sledování vytížení je praktické mít vedle otevřené htop.
Pro technické dotazy a jednoduché pomocné úkoly může malý lokální model stačit, ale je potřeba počítat s halucinacemi a s horší kvalitou v češtině.

Z obou videí vychází podobný závěr:

dává smysl, pokud je priorita soukromí a data nemají odcházet do cloudu
hodí se pro domácí experimenty, výuku, testování promptů a jednoduché offline asistenty
je použitelné pro úzké technické úkoly, kde nevadí menší znalost modelu a pomalejší odpověď
není to dobrá cesta pro větší modely nebo pro práci, kde je potřeba vysoká přesnost a rychlost

Pokud je cílem jen rychle lokálně zkusit malý model, je jednodušší začít přes Ollamu. Pokud je cílem pochopit, jak běh modelu funguje pod kapotou, dává větší smysl llama.cpp.

Raspberry Pi je pro LLM hraniční hardware. Největší limity jsou RAM, výkon CPU a chlazení.
U větších modelů než TinyLlama nebo jiných malých variant už bude odezva na Raspberry Pi velmi pomalá.
Pro běžné praktické použití dává často větší smysl lokální běh na běžném PC nebo notebooku; ve videu je jako další varianta zmíněné i WSL.
Lokální model není z principu pravdivější jen proto, že běží doma. Pořád je potřeba kontrolovat výstup.

Pro další studium lokální AI je užitečný playlist přednášek z OpenAlt 2025 a program OpenAlt 2025. K této stránce se vztahují hlavně přednáška Lama v malině a přednáška Vlastní AI na Raspberry Pi. Praktický doplněk je i ukázkový skript dialogue.sh.