llama.cpp je lehký runtime pro lokální běh jazykových modelů a v praxi se kolem něj často řeší i širší téma provozu menších LLM na vlastním hardware. Na této stránce dávají obě vložená videa smysl hlavně jako praktický přehled toho, co jde rozběhat na Raspberry Pi pomocí llama.cpp, Ollamy a modelů stažených z Hugging Face.
Video Lama v malině aneb Provozujeme vlastního AI Chatbota na RaspberryPi ukazuje, že i Raspberry Pi lze použít pro lokální běh menších modelů, pokud se počítá s omezeným výkonem a s kvantizací modelu.
Hlavní praktické poznatky z videa:
llama.cpp dává smysl tam, kde je potřeba jednoduchý a úsporný runtime bez zbytečné režie.make, převod modelu do formátu použitelného pro llama.cpp a následná kvantizace.temperature, velikost kontextu nebo limit generovaných tokenů.Co z toho plyne v praxi:
Druhé video Vlastní AI na Raspberry Pi - návod je praktičtější návod na rychlé rozběhání lokální AI pomocí Ollamy a malého modelu TinyLlama. Zdrojové kódy Ollamy jsou dostupné na GitHubu.
Ve videu dává smysl hlavně tento minimální postup:
curl -fsSL https://ollama.com/install.sh | sh ollama run tinyllama ollama run tinyllama --verbose
Praktické poznatky z videa:
Ollama je pohodlnější cesta než ruční práce s llama.cpp, pokud je cílem model hlavně rychle rozběhat a zkoušet.–verbose se hodí pro kontrolu rychlosti generování a počtu tokenů.htop.Z obou videí vychází podobný závěr:
Pokud je cílem jen rychle lokálně zkusit malý model, je jednodušší začít přes Ollamu. Pokud je cílem pochopit, jak běh modelu funguje pod kapotou, dává větší smysl llama.cpp.
Pro další studium lokální AI je užitečný playlist přednášek z OpenAlt 2025 a program OpenAlt 2025. K této stránce se vztahují hlavně přednáška Lama v malině a přednáška Vlastní AI na Raspberry Pi. Praktický doplněk je i ukázkový skript dialogue.sh.