Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
ai:platformy:autoresearch [2026/03/19 11:23] – Doplnění sekce o časových intervalech a jejich významu Petr Nosekai:platformy:autoresearch [2026/03/19 11:44] (aktuální) – Doplnění detailnějšího rozpisu videa z NotebookLM reportu Petr Nosek
Řádek 1: Řádek 1:
 ====== autoresearch – autonomní ML experiment loop ====== ====== autoresearch – autonomní ML experiment loop ======
  
-[[https://github.com/karpathy/autoresearch|autoresearch]] je open-source framework od Andreje Karpathyho, který umožňuje AI agentovi autonomně provádět opakované ML experimenty bez zásahu člověka. Podle README je původní záměr jednoduchý: agent upravuje trénovací kód, spustí krátký běh, změří výsledek a podle metriky rozhodne, jestli změnu ponechat. Ve videu [[https://www.youtube.com/watch?v=4Cb_l2LJAW8|Claude Code + autoresearch]] je ten samý princip ukázaný i jako obecný pattern pro autonomní experimentování mimo ML.+[[https://github.com/karpathy/autoresearch|autoresearch]] je open-source framework od Andreje Karpathyho, který umožňuje AI agentovi autonomně provádět opakované ML experimenty bez zásahu člověka. Podle [[https://raw.githubusercontent.com/karpathy/autoresearch/master/README.md|README]] je původní záměr jednoduchý: agent upravuje trénovací kód, spustí krátký běh, změří výsledek a podle metriky rozhodne, jestli změnu ponechat. Ve videu [[https://www.youtube.com/watch?v=4Cb_l2LJAW8|Claude Code + autoresearch]] je ten samý princip ukázaný i jako obecný pattern pro autonomní experimentování mimo ML.
  
 {{youtube>4Cb_l2LJAW8?}} {{youtube>4Cb_l2LJAW8?}}
Řádek 74: Řádek 74:
 Prakticky řečeno: video neukazuje „spusť repo a dostaneš marketingový autopilot“, ale „vezmi logiku autoresearch a přepiš ji pro jiný problém s měřitelným výsledkem“. Prakticky řečeno: video neukazuje „spusť repo a dostaneš marketingový autopilot“, ale „vezmi logiku autoresearch a přepiš ji pro jiný problém s měřitelným výsledkem“.
  
-===== Jak byla marketingová adaptace postavená =====+===== Workflow z videa krok za krokem =====
  
-Z toho, co je vidět ve videu, na screenech v promptu diktovaném do Claude Code, vychází workflow zhruba takto:+Podle videa následného rozboru přes NotebookLM vypadá demo workflow přibližně takto:
  
-  Naklonuje se repozitář ''autoresearch'' jako referenční kostra +  Naklonuje se repozitář ''autoresearch'' jako referenční kostra 
-  * Do Claude Code se zadá, aby stejný pattern použil místo ML pro cold email +  - Spustí se Claude Code v terminálu nebo editoru 
-  V ''test.md'' se popíše cíl, metrika a test method +  - Zadá se prompt, aby stejný pattern použil místo ML pro cold email 
-  V ''resource.md'' se drží znalostní báze o tom, co zvyšuje reply rate +  V ''test.md'' se popíše cíl, metrika a test method 
-  ''orchestrator.py'' řídí loop harvest -> generate -> deploy -> measure -> promote/revert +  V ''resource.md'' se drží znalostní báze o tom, co zvyšuje reply rate 
-  GitHub Actions nebo cron spouští tick v pravidelných intervalech +  ''orchestrator.py'' řídí loop harvest -> generate -> deploy -> measure -> promote/revert 
-  Instantly API dodává metriky a umožní nasadit nové varianty+  GitHub Actions nebo cron spouští tick v pravidelných intervalech 
 +  Instantly API dodává metriky a umožní nasadit nové varianty
  
 Nejde tedy o to, že by původní ML kód najednou uměl marketing. Původní repo se použije hlavně jako architektonický vzor. Nejde tedy o to, že by původní ML kód najednou uměl marketing. Původní repo se použije hlavně jako architektonický vzor.
 +
 +===== Role člověka vs. role AI agenta =====
 +
 +Video docela dobře ukazuje i rozdělení práce:
 +
 +  * **Člověk** definuje cíl, objektivní metriku, mantinely a dodá přístup k API
 +  * **AI agent** navrhuje konkrétní hypotézy, píše integrační kód, spouští experimenty a vyhodnocuje výsledky
 +  * **Člověk** udělá počáteční setup a průběžně hlídá, jestli systém nedělá něco nežádoucího
 +  * **AI agent** běží 24/7 a je rychlejší v objemu iterací než člověk, i když jednotlivé rozhodnutí nemusí být vždy lepší
 +
 +Praktický posun je v tom, že člověk je z velké části vytažený ze samotné experimentální smyčky. Nestará se o každou jednotlivou variantu, ale nastavuje systém a čte výsledky.
  
 ===== Jednoduchý model ===== ===== Jednoduchý model =====
Řádek 209: Řádek 221:
  
 Jinými slovy: nejde hledat jeden „správný interval“, ale rozumný kompromis mezi rychlostí iterace, velikostí vzorku a rychlostí návratu signálu. Jinými slovy: nejde hledat jeden „správný interval“, ale rozumný kompromis mezi rychlostí iterace, velikostí vzorku a rychlostí návratu signálu.
 +
 +===== Kdy tenhle pattern dává smysl =====
 +
 +Z videa i z reportu vychází tři praktické podmínky, bez kterých se takový systém rozpadá:
 +
 +  * **Rychlá nebo aspoň použitelná smyčka zpětné vazby** - čím dřív se vrátí výsledek pokusu, tím rychleji se systém může posouvat dál
 +  * **Jasná objektivní metrika** - ideálně něco jako reply rate, CTR, CVR nebo jiná metrika, která nejde snadno zaměnit za subjektivní dojem
 +  * **API nebo jiná programová ovladatelnost** - agent musí umět změnit vstupy a zase si stáhnout výsledek bez ručního zásahu
 +
 +Proto se ten pattern hodí hlavně tam, kde existuje měřitelný signál a kde lze experiment rozumně nasadit i vyhodnotit strojově.
 +
 +===== Kde by se ten pattern dal použít i mimo ML =====
 +
 +Video i report zmiňují, že stejný princip by šel přenést i na další typy experimentů mimo trénování modelů. Typicky jde o situace, kde lze měnit vstup, měřit výsledek a iterovat:
 +
 +  * landing pages a jejich konverzní poměr
 +  * reklamní kreativy a nadpisy
 +  * zákaznické support skripty
 +  * názvy nebo metadata videí, pokud existuje měřitelný signál a API
 +
 +Tady je ale potřeba stejná opatrnost jako u cold emailů: čím pomalejší nebo hlučnější metrika, tím slabší bude celý loop.
  
 ===== Potvrzená fakta vs. rozumná interpretace ===== ===== Potvrzená fakta vs. rozumná interpretace =====
  • ai/platformy/autoresearch.txt
  • Poslední úprava: 2026/03/19 11:44
  • autor: Petr Nosek