===== Marker: Převod dokumentů na markdown s vysokou přesností ===== Máte hromadu PDF souborů, které potřebujete převést do čitatelné a strukturované podoby? Nebo pracujete s obrázky, PowerPointy a dalšími dokumenty, které chcete mít v jednotném formátu? [[https://github.com/datalab-to/marker|Marker]] je open-source nástroj, který vám s tím pomůže – a dělá to překvapivě dobře. ==== Co je Marker a k čemu slouží? ==== Marker je konverzní nástroj vyvinutý společností Datalab, který transformuje PDF, obrázky a další dokumenty (PPTX, DOCX, XLSX, HTML, EPUB) do markdownu, JSON, HTML nebo jiných formátů. Jde v podstatě o inteligentní převodník, který nejen stáhne text, ale snaží se zachovat strukturu dokumentu – tabulky, rovnice, seznamy, odsazení a vše ostatní. **Hlavní praktické použití Markeru:** * **Digitalizace starých dokumentů** – Převody papírových či naskenovaných souborů do digitální podoby s OCR (optickým rozpoznáváním znaků) * **Příprava dat pro AI aplikace** – Strukturovaný výstup v JSON formátu se hodí pro trénování nebo ingestování do RAG (Retrieval Augmented Generation) systémů * **Archivace a vyhledávání** – Markdown či JSON je lépe indexovatelný a prohledávatelný než binární PDF * **Extrakce formulářů a tabulek** – Specialní konvertor umožňuje vyextrahovat jen tabulky nebo formuláře * **Hromadné zpracování** – Marker zvládá zpracovávat desítky nebo stovky dokumentů v dávkách ==== Jak Marker funguje? ==== Marker používá ověřenou strategii – kombinuje heuristiku s hlubokým učením. Konkrétně: - **Extrakce textu a OCR** – Marker se pokusí vyextrahovat text z digitálních PDF. Pokud selže, zapne OCR (pomocí nástroje Surya). - **Detekce rozložení** – Pochopit, jak je stránka strukturovaná – kde jsou nadpisy, odstavce, obrázky, tabulky. - **Čištění a formátování** – Správné sázení rovnic, formátování tabulek, rozpoznávání bloků kódu. - **Volitelné vylepšení pomocí LLM** – Pokud chcete vyšší přesnost, Marker může zavolat velký jazykový model (Gemini, Claude, OpenAI), který „chytří“ nuance. - **Finální postprocessing** – Spojení bloků a výstup v požadovaném formátu. ==== Výkon a přesnost ==== Marker se pyšní benchmarky. Oproti konkurenčním cloudovým řešením (jako Llamaparse či Mathpix): * **Rychlejší** – Zpracuje jednu stránku přibližně za 0,18 sekundy na H100 GPU. V hromadném režimu může dosáhnout až 122 stran za sekundu. * **Přesnější** – Podle testů dosahuje skóre přesnosti kolem 95–97 % v závislosti na typu dokumentu. * **Levnější** – Když spustíte Marker lokálně, nemusíte platit za cloudové služby. **Specificky pro jednotlivé typy dokumentů:** ^ Typ dokumentu ^ Přesnost ^ | Vědecké články | 96,7 % | | Stránky knih | 97,2 % | | Dopisy | 98,4 % | | Formuláře | 88 % | ==== Instalace a použití ==== === Základní instalace === pip install marker-pdf Pokud chcete pracovat s více typy dokumentů než jen PDF: pip install marker-pdf[full] === Jednoduchý příkaz === Převod jednoho souboru: marker_single /cesta/k/souboru.pdf === Hromadné zpracování === Chcete převést celou složku dokumentů? marker /cesta/k/slozce Marker automaticky detekuje dostupné zdroje (GPU, CPU) a optimalizuje práci. Výchozí výstup je markdown, ale můžete specifikovat i JSON, HTML nebo čunky. === Vylepšená přesnost s LLM === Pro vyšší kvalitu můžete zapnout podporu LLM: marker_single /cesta/k/souboru.pdf --use_llm --gemini_api_key YOUR_KEY Marker podporuje Gemini, OpenAI, Anthropic (Claude), Ollama a další. Tímto způsobem dosáhne ještě vyšší přesnosti, zvlášť u složitějších dokumentů. === Interaktivní GUI === Chcete si vyzkoušet Marker interaktivně? pip install streamlit streamlit-ace marker_gui Otevře se webové rozhraní, kde si můžete hrát s možnostmi. ==== Praktické příklady ==== === Příklad 1: Převod vědeckého článku === Máte PDF s vědeckým článkem, který chcete zpracovat pro AI aplikaci: marker_single research_paper.pdf --output_format json --use_llm Výstupem bude JSON s hierarchickou strukturou všech prvků – nadpisy, paragrafy, rovnice, tabulky, vše strukturované. === Příklad 2: Extrakce tabulek === Máte finanční report s tabulkami a chcete vytáhnout jen je: marker_single financial_report.pdf --converter_cls marker.converters.table.TableConverter --output_format json === Příklad 3: Zpracování skandovaných dokumentů === Starý dokument ve formě skenů? Marker zapne OCR: marker_single scanned_document.pdf --force_ocr ==== Omezení a kdy Marker nestačí ==== Marker je výborný, ale má hranice. Nejsou to selhání, spíše okraje: * **Velmi složité rozložení** – Vnořené tabulky a formuláře mohou být problematické. * **Formuláře** – Jejich rozpoznávání není dokonalé (skóre 88 %). * **Lokální model** – Bez internetu a bez API klíčů můžete Marker spustit, ale bez LLM vylepšení. Řešením je použít příznak %%--use_llm%% a %%--force_ocr%%, což řeší většinu těchto problémů. ==== Open-source vs. komerční řešení ==== Marker je dostupný jako open-source (pod GPL licencí s výjimkami pro výzkum a startupy do 2M dolarů financování), ale Datalab nabízí i hostovanou API verzi za cenu. Tato verze je 4× levnější než konkurence a zpracuje stránku PDF přibližně za 15 sekund. ==== Závěr ==== Marker je solidní volba pro všechny, kdo potřebují spolehlivě převádět dokumenty do strukturovaného formátu. Ať už jste vědecký tým zpracovávající články, podnikání s hromadou kontraktů, nebo AI vývojář připravující data – Marker vás nezklame. Kombinuje rychlost, přesnost a rozumnou cenu. Jestliže vám stačí základní conversion, spusťte si ho lokálně zdarma. Pokud potřebujete maximální přesnost a nemusíte se starat o infrastrukturu, zkuste cloudový API. Buď jak buď, je to nástroj, který si zaslouží pozornost.