Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- ai:platformy:autoresearch [2026/03/19 11:23] – Doplnění sekce o časových intervalech a jejich významu Petr Nosek
+++ ai:platformy:autoresearch [2026/03/19 11:44] (aktuální) – Doplnění detailnějšího rozpisu videa z NotebookLM reportu Petr Nosek
@@ Řádek 1: / Řádek 1: @@
 ====== autoresearch – autonomní ML experiment loop ======
-[[https://github.com/karpathy/autoresearch|autoresearch]] je open-source framework od Andreje Karpathyho, který umožňuje AI agentovi autonomně provádět opakované ML experimenty bez zásahu člověka. Podle README je původní záměr jednoduchý: agent upravuje trénovací kód, spustí krátký běh, změří výsledek a podle metriky rozhodne, jestli změnu ponechat. Ve videu [[https://www.youtube.com/watch?v=4Cb_l2LJAW8|Claude Code + autoresearch]] je ten samý princip ukázaný i jako obecný pattern pro autonomní experimentování mimo ML.
+[[https://github.com/karpathy/autoresearch|autoresearch]] je open-source framework od Andreje Karpathyho, který umožňuje AI agentovi autonomně provádět opakované ML experimenty bez zásahu člověka. Podle [[https://raw.githubusercontent.com/karpathy/autoresearch/master/README.md|README]] je původní záměr jednoduchý: agent upravuje trénovací kód, spustí krátký běh, změří výsledek a podle metriky rozhodne, jestli změnu ponechat. Ve videu [[https://www.youtube.com/watch?v=4Cb_l2LJAW8|Claude Code + autoresearch]] je ten samý princip ukázaný i jako obecný pattern pro autonomní experimentování mimo ML.
 {{youtube>4Cb_l2LJAW8?}}
@@ Řádek 74: / Řádek 74: @@
 Prakticky řečeno: video neukazuje „spusť repo a dostaneš marketingový autopilot“, ale „vezmi logiku autoresearch a přepiš ji pro jiný problém s měřitelným výsledkem“.
-===== Jak byla marketingová adaptace postavená =====
+===== Workflow z videa krok za krokem =====
-Z toho, co je vidět ve videu, na screenech a v promptu diktovaném do Claude Code, vychází workflow zhruba takto:
+Podle videa a následného rozboru přes NotebookLM vypadá demo workflow přibližně takto:
-  * Naklonuje se repozitář ''autoresearch'' jako referenční kostra
+  - Naklonuje se repozitář ''autoresearch'' jako referenční kostra
-  * Do Claude Code se zadá, aby stejný pattern použil místo ML pro cold email
+  - Spustí se Claude Code v terminálu nebo editoru
-  * V ''test.md'' se popíše cíl, metrika a test method
+  - Zadá se prompt, aby stejný pattern použil místo ML pro cold email
-  * V ''resource.md'' se drží znalostní báze o tom, co zvyšuje reply rate
+  - V ''test.md'' se popíše cíl, metrika a test method
-  * ''orchestrator.py'' řídí loop harvest -> generate -> deploy -> measure -> promote/revert
+  - V ''resource.md'' se drží znalostní báze o tom, co zvyšuje reply rate
-  * GitHub Actions nebo cron spouští tick v pravidelných intervalech
+  - ''orchestrator.py'' řídí loop harvest -> generate -> deploy -> measure -> promote/revert
-  * Instantly API dodává metriky a umožní nasadit nové varianty
+  - GitHub Actions nebo cron spouští tick v pravidelných intervalech
+  - Instantly API dodává metriky a umožní nasadit nové varianty
 Nejde tedy o to, že by původní ML kód najednou uměl marketing. Původní repo se použije hlavně jako architektonický vzor.
+===== Role člověka vs. role AI agenta =====
+Video docela dobře ukazuje i rozdělení práce:
+  * **Člověk** definuje cíl, objektivní metriku, mantinely a dodá přístup k API
+  * **AI agent** navrhuje konkrétní hypotézy, píše integrační kód, spouští experimenty a vyhodnocuje výsledky
+  * **Člověk** udělá počáteční setup a průběžně hlídá, jestli systém nedělá něco nežádoucího
+  * **AI agent** běží 24/7 a je rychlejší v objemu iterací než člověk, i když jednotlivé rozhodnutí nemusí být vždy lepší
+Praktický posun je v tom, že člověk je z velké části vytažený ze samotné experimentální smyčky. Nestará se o každou jednotlivou variantu, ale nastavuje systém a čte výsledky.
 ===== Jednoduchý model =====
@@ Řádek 209: / Řádek 221: @@
 Jinými slovy: nejde hledat jeden „správný interval“, ale rozumný kompromis mezi rychlostí iterace, velikostí vzorku a rychlostí návratu signálu.
+===== Kdy tenhle pattern dává smysl =====
+Z videa i z reportu vychází tři praktické podmínky, bez kterých se takový systém rozpadá:
+  * **Rychlá nebo aspoň použitelná smyčka zpětné vazby** - čím dřív se vrátí výsledek pokusu, tím rychleji se systém může posouvat dál
+  * **Jasná objektivní metrika** - ideálně něco jako reply rate, CTR, CVR nebo jiná metrika, která nejde snadno zaměnit za subjektivní dojem
+  * **API nebo jiná programová ovladatelnost** - agent musí umět změnit vstupy a zase si stáhnout výsledek bez ručního zásahu
+Proto se ten pattern hodí hlavně tam, kde existuje měřitelný signál a kde lze experiment rozumně nasadit i vyhodnotit strojově.
+===== Kde by se ten pattern dal použít i mimo ML =====
+Video i report zmiňují, že stejný princip by šel přenést i na další typy experimentů mimo trénování modelů. Typicky jde o situace, kde lze měnit vstup, měřit výsledek a iterovat:
+  * landing pages a jejich konverzní poměr
+  * reklamní kreativy a nadpisy
+  * zákaznické support skripty
+  * názvy nebo metadata videí, pokud existuje měřitelný signál a API
+Tady je ale potřeba stejná opatrnost jako u cold emailů: čím pomalejší nebo hlučnější metrika, tím slabší bude celý loop.
 ===== Potvrzená fakta vs. rozumná interpretace =====