ai:modely:llama

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
ai:modely:llama [18.04.2026 13:08] – Rozšíření stránky o poznatky ze dvou videí zpracovaných přes NotebookLM Petr Nosekai:modely:llama [18.04.2026 13:10] (aktuální) – Doplnění inline odkazu na GitHub Ollamy Petr Nosek
Řádek 1: Řádek 1:
 ====== Llama ====== ====== Llama ======
  
-[[https://github.com/ggerganov/llama.cpp|llama.cpp]] je lehký runtime pro lokální běh jazykových modelů a v praxi se kolem něj často řeší i širší téma provozu menších LLM na vlastním hardware. Na této stránce dávají obě vložená videa smysl hlavně jako praktický přehled toho, co jde rozběhat na Raspberry Pi pomocí `llama.cpp`, [[https://ollama.com/|Ollamy]] a modelů stažených z [[https://huggingface.co/|Hugging Face]].+[[https://github.com/ggerganov/llama.cpp|llama.cpp]] je lehký runtime pro lokální běh jazykových modelů a v praxi se kolem něj často řeší i širší téma provozu menších LLM na vlastním hardware. Na této stránce dávají obě vložená videa smysl hlavně jako praktický přehled toho, co jde rozběhat na Raspberry Pi pomocí ''llama.cpp'', [[https://ollama.com/|Ollamy]] a modelů stažených z [[https://huggingface.co/|Hugging Face]].
  
 ===== llama.cpp na Raspberry Pi ===== ===== llama.cpp na Raspberry Pi =====
Řádek 11: Řádek 11:
 Hlavní praktické poznatky z videa: Hlavní praktické poznatky z videa:
  
-  * `llama.cppdává smysl tam, kde je potřeba jednoduchý a úsporný runtime bez zbytečné režie.+  * ''llama.cpp'' dává smysl tam, kde je potřeba jednoduchý a úsporný runtime bez zbytečné režie.
   * Kritická je velikost modelu v RAM. Na Raspberry Pi je potřeba počítat s kvantizací a s tím, že větší modely budou narážet na paměť i rychlost.   * Kritická je velikost modelu v RAM. Na Raspberry Pi je potřeba počítat s kvantizací a s tím, že větší modely budou narážet na paměť i rychlost.
-  * Ve videu se řeší kompilace přes `''make''`, převod modelu do formátu použitelného pro `llama.cppa následná kvantizace. +  * Ve videu se řeší kompilace přes ''make'', převod modelu do formátu použitelného pro ''llama.cpp'' a následná kvantizace. 
-  * Důležitá je práce se system promptem a s parametry jako `temperature`, velikost kontextu nebo limit generovaných tokenů.+  * Důležitá je práce se system promptem a s parametry jako ''temperature'', velikost kontextu nebo limit generovaných tokenů.
   * Zajímavá je možnost vynutit strukturovaný výstup, například validní JSON nebo jiný formální formát.   * Zajímavá je možnost vynutit strukturovaný výstup, například validní JSON nebo jiný formální formát.
  
Řádek 25: Řádek 25:
 ===== Ollama na Raspberry Pi ===== ===== Ollama na Raspberry Pi =====
  
-Druhé video [[https://www.youtube.com/watch?v=g9_0m7RBrfs|Vlastní AI na Raspberry Pi - návod]] je praktičtější návod na rychlé rozběhání lokální AI pomocí Ollamy a malého modelu TinyLlama.+Druhé video [[https://www.youtube.com/watch?v=g9_0m7RBrfs|Vlastní AI na Raspberry Pi - návod]] je praktičtější návod na rychlé rozběhání lokální AI pomocí Ollamy a malého modelu TinyLlama. Zdrojové kódy Ollamy jsou dostupné na [[https://github.com/ollama/ollama|GitHubu]].
  
 {{youtube>g9_0m7RBrfs?}} {{youtube>g9_0m7RBrfs?}}
Řádek 39: Řádek 39:
 Praktické poznatky z videa: Praktické poznatky z videa:
  
-  * `Ollamaje pohodlnější cesta než ruční práce s `llama.cpp`, pokud je cílem model hlavně rychle rozběhat a zkoušet.+  * ''Ollama'' je pohodlnější cesta než ruční práce s ''llama.cpp'', pokud je cílem model hlavně rychle rozběhat a zkoušet.
   * Na Raspberry Pi dává smysl zkoušet opravdu malé modely. Ve videu se pracuje s [[https://ollama.com/library/tinyllama|TinyLlama]].   * Na Raspberry Pi dává smysl zkoušet opravdu malé modely. Ve videu se pracuje s [[https://ollama.com/library/tinyllama|TinyLlama]].
-  * Přepínač `''--verbose''se hodí pro kontrolu rychlosti generování a počtu tokenů. +  * Přepínač ''--verbose'' se hodí pro kontrolu rychlosti generování a počtu tokenů. 
-  * Pro sledování vytížení je praktické mít vedle otevřené `''htop''`.+  * Pro sledování vytížení je praktické mít vedle otevřené ''htop''.
   * Pro technické dotazy a jednoduché pomocné úkoly může malý lokální model stačit, ale je potřeba počítat s halucinacemi a s horší kvalitou v češtině.   * Pro technické dotazy a jednoduché pomocné úkoly může malý lokální model stačit, ale je potřeba počítat s halucinacemi a s horší kvalitou v češtině.
  
Řádek 54: Řádek 54:
   * není to dobrá cesta pro větší modely nebo pro práci, kde je potřeba vysoká přesnost a rychlost   * není to dobrá cesta pro větší modely nebo pro práci, kde je potřeba vysoká přesnost a rychlost
  
-Pokud je cílem jen rychle lokálně zkusit malý model, je jednodušší začít přes Ollamu. Pokud je cílem pochopit, jak běh modelu funguje pod kapotou, dává větší smysl `llama.cpp`.+Pokud je cílem jen rychle lokálně zkusit malý model, je jednodušší začít přes Ollamu. Pokud je cílem pochopit, jak běh modelu funguje pod kapotou, dává větší smysl ''llama.cpp''.
  
 ===== Limity a poznámky ===== ===== Limity a poznámky =====
  • ai/modely/llama.1776510535.txt.gz
  • Poslední úprava: 18.04.2026 13:08
  • autor: Petr Nosek