Toto je starší verze dokumentu!
Llama
llama.cpp je lehký runtime pro lokální běh jazykových modelů a v praxi se kolem něj často řeší i širší téma provozu menších LLM na vlastním hardware. Na této stránce dávají obě vložená videa smysl hlavně jako praktický přehled toho, co jde rozběhat na Raspberry Pi pomocí llama.cpp, Ollamy a modelů stažených z Hugging Face.
llama.cpp na Raspberry Pi
Video Lama v malině aneb Provozujeme vlastního AI Chatbota na RaspberryPi ukazuje, že i Raspberry Pi lze použít pro lokální běh menších modelů, pokud se počítá s omezeným výkonem a s kvantizací modelu.
Hlavní praktické poznatky z videa:
llama.cppdává smysl tam, kde je potřeba jednoduchý a úsporný runtime bez zbytečné režie.- Kritická je velikost modelu v RAM. Na Raspberry Pi je potřeba počítat s kvantizací a s tím, že větší modely budou narážet na paměť i rychlost.
- Ve videu se řeší kompilace přes
make, převod modelu do formátu použitelného prollama.cppa následná kvantizace. - Důležitá je práce se system promptem a s parametry jako
temperature, velikost kontextu nebo limit generovaných tokenů. - Zajímavá je možnost vynutit strukturovaný výstup, například validní JSON nebo jiný formální formát.
Co z toho plyne v praxi:
- Na Raspberry Pi to dává smysl spíš pro experimenty, výuku, jednoduché specializované chatboty a offline použití.
- Čeština je pro malé lokální modely výrazně horší než angličtina. Je potřeba čekat nižší kvalitu odpovědí a víc chyb.
- Důležité je chlazení. Dlouhý běh modelu zatěžuje CPU natolik, že bez chladiče nebo aktivního větrání rychle narazí na teplotní limity.
Ollama na Raspberry Pi
Druhé video Vlastní AI na Raspberry Pi - návod je praktičtější návod na rychlé rozběhání lokální AI pomocí Ollamy a malého modelu TinyLlama.
Ve videu dává smysl hlavně tento minimální postup:
curl -fsSL https://ollama.com/install.sh | sh ollama run tinyllama ollama run tinyllama --verbose
Praktické poznatky z videa:
Ollamaje pohodlnější cesta než ruční práce sllama.cpp, pokud je cílem model hlavně rychle rozběhat a zkoušet.- Na Raspberry Pi dává smysl zkoušet opravdu malé modely. Ve videu se pracuje s TinyLlama.
- Přepínač
–verbosese hodí pro kontrolu rychlosti generování a počtu tokenů. - Pro sledování vytížení je praktické mít vedle otevřené
htop. - Pro technické dotazy a jednoduché pomocné úkoly může malý lokální model stačit, ale je potřeba počítat s halucinacemi a s horší kvalitou v češtině.
Kdy dává lokální model na Raspberry Pi smysl
Z obou videí vychází podobný závěr:
- dává smysl, pokud je priorita soukromí a data nemají odcházet do cloudu
- hodí se pro domácí experimenty, výuku, testování promptů a jednoduché offline asistenty
- je použitelné pro úzké technické úkoly, kde nevadí menší znalost modelu a pomalejší odpověď
- není to dobrá cesta pro větší modely nebo pro práci, kde je potřeba vysoká přesnost a rychlost
Pokud je cílem jen rychle lokálně zkusit malý model, je jednodušší začít přes Ollamu. Pokud je cílem pochopit, jak běh modelu funguje pod kapotou, dává větší smysl llama.cpp.
Limity a poznámky
- Raspberry Pi je pro LLM hraniční hardware. Největší limity jsou RAM, výkon CPU a chlazení.
- U větších modelů než TinyLlama nebo jiných malých variant už bude odezva na Raspberry Pi velmi pomalá.
- Pro běžné praktické použití dává často větší smysl lokální běh na běžném PC nebo notebooku; ve videu je jako další varianta zmíněné i WSL.
- Lokální model není z principu pravdivější jen proto, že běží doma. Pořád je potřeba kontrolovat výstup.
Přednášky z OpenAlt 2025
Pro další studium lokální AI je užitečný playlist přednášek z OpenAlt 2025 a program OpenAlt 2025. K této stránce se vztahují hlavně přednáška Lama v malině a přednáška Vlastní AI na Raspberry Pi. Praktický doplněk je i ukázkový skript dialogue.sh.