ai:modely:llama

Toto je starší verze dokumentu!


Llama

llama.cpp je lehký runtime pro lokální běh jazykových modelů a v praxi se kolem něj často řeší i širší téma provozu menších LLM na vlastním hardware. Na této stránce dávají obě vložená videa smysl hlavně jako praktický přehled toho, co jde rozběhat na Raspberry Pi pomocí llama.cpp, Ollamy a modelů stažených z Hugging Face.

Video Lama v malině aneb Provozujeme vlastního AI Chatbota na RaspberryPi ukazuje, že i Raspberry Pi lze použít pro lokální běh menších modelů, pokud se počítá s omezeným výkonem a s kvantizací modelu.

Hlavní praktické poznatky z videa:

  • llama.cpp dává smysl tam, kde je potřeba jednoduchý a úsporný runtime bez zbytečné režie.
  • Kritická je velikost modelu v RAM. Na Raspberry Pi je potřeba počítat s kvantizací a s tím, že větší modely budou narážet na paměť i rychlost.
  • Ve videu se řeší kompilace přes make, převod modelu do formátu použitelného pro llama.cpp a následná kvantizace.
  • Důležitá je práce se system promptem a s parametry jako temperature, velikost kontextu nebo limit generovaných tokenů.
  • Zajímavá je možnost vynutit strukturovaný výstup, například validní JSON nebo jiný formální formát.

Co z toho plyne v praxi:

  • Na Raspberry Pi to dává smysl spíš pro experimenty, výuku, jednoduché specializované chatboty a offline použití.
  • Čeština je pro malé lokální modely výrazně horší než angličtina. Je potřeba čekat nižší kvalitu odpovědí a víc chyb.
  • Důležité je chlazení. Dlouhý běh modelu zatěžuje CPU natolik, že bez chladiče nebo aktivního větrání rychle narazí na teplotní limity.

Druhé video Vlastní AI na Raspberry Pi - návod je praktičtější návod na rychlé rozběhání lokální AI pomocí Ollamy a malého modelu TinyLlama.

Ve videu dává smysl hlavně tento minimální postup:

curl -fsSL https://ollama.com/install.sh | sh
ollama run tinyllama
ollama run tinyllama --verbose

Praktické poznatky z videa:

  • Ollama je pohodlnější cesta než ruční práce s llama.cpp, pokud je cílem model hlavně rychle rozběhat a zkoušet.
  • Na Raspberry Pi dává smysl zkoušet opravdu malé modely. Ve videu se pracuje s TinyLlama.
  • Přepínač –verbose se hodí pro kontrolu rychlosti generování a počtu tokenů.
  • Pro sledování vytížení je praktické mít vedle otevřené htop.
  • Pro technické dotazy a jednoduché pomocné úkoly může malý lokální model stačit, ale je potřeba počítat s halucinacemi a s horší kvalitou v češtině.

Z obou videí vychází podobný závěr:

  • dává smysl, pokud je priorita soukromí a data nemají odcházet do cloudu
  • hodí se pro domácí experimenty, výuku, testování promptů a jednoduché offline asistenty
  • je použitelné pro úzké technické úkoly, kde nevadí menší znalost modelu a pomalejší odpověď
  • není to dobrá cesta pro větší modely nebo pro práci, kde je potřeba vysoká přesnost a rychlost

Pokud je cílem jen rychle lokálně zkusit malý model, je jednodušší začít přes Ollamu. Pokud je cílem pochopit, jak běh modelu funguje pod kapotou, dává větší smysl llama.cpp.

  • Raspberry Pi je pro LLM hraniční hardware. Největší limity jsou RAM, výkon CPU a chlazení.
  • U větších modelů než TinyLlama nebo jiných malých variant už bude odezva na Raspberry Pi velmi pomalá.
  • Pro běžné praktické použití dává často větší smysl lokální běh na běžném PC nebo notebooku; ve videu je jako další varianta zmíněné i WSL.
  • Lokální model není z principu pravdivější jen proto, že běží doma. Pořád je potřeba kontrolovat výstup.

Pro další studium lokální AI je užitečný playlist přednášek z OpenAlt 2025 a program OpenAlt 2025. K této stránce se vztahují hlavně přednáška Lama v malině a přednáška Vlastní AI na Raspberry Pi. Praktický doplněk je i ukázkový skript dialogue.sh.

  • ai/modely/llama.1776510582.txt.gz
  • Poslední úprava: 2026/04/18 11:09
  • autor: Petr Nosek