===== Marker: Převod dokumentů na markdown s vysokou přesností =====
Máte hromadu PDF souborů, které potřebujete převést do čitatelné a strukturované podoby? Nebo pracujete s obrázky, PowerPointy a dalšími dokumenty, které chcete mít v jednotném formátu? [[https://github.com/datalab-to/marker|Marker]] je open-source nástroj, který vám s tím pomůže – a dělá to překvapivě dobře.
==== Co je Marker a k čemu slouží? ====
Marker je konverzní nástroj vyvinutý společností Datalab, který transformuje PDF, obrázky a další dokumenty (PPTX, DOCX, XLSX, HTML, EPUB) do markdownu, JSON, HTML nebo jiných formátů. Jde v podstatě o inteligentní převodník, který nejen stáhne text, ale snaží se zachovat strukturu dokumentu – tabulky, rovnice, seznamy, odsazení a vše ostatní.
**Hlavní praktické použití Markeru:**
* **Digitalizace starých dokumentů** – Převody papírových či naskenovaných souborů do digitální podoby s OCR (optickým rozpoznáváním znaků)
* **Příprava dat pro AI aplikace** – Strukturovaný výstup v JSON formátu se hodí pro trénování nebo ingestování do RAG (Retrieval Augmented Generation) systémů
* **Archivace a vyhledávání** – Markdown či JSON je lépe indexovatelný a prohledávatelný než binární PDF
* **Extrakce formulářů a tabulek** – Specialní konvertor umožňuje vyextrahovat jen tabulky nebo formuláře
* **Hromadné zpracování** – Marker zvládá zpracovávat desítky nebo stovky dokumentů v dávkách
==== Jak Marker funguje? ====
Marker používá ověřenou strategii – kombinuje heuristiku s hlubokým učením. Konkrétně:
- **Extrakce textu a OCR** – Marker se pokusí vyextrahovat text z digitálních PDF. Pokud selže, zapne OCR (pomocí nástroje Surya).
- **Detekce rozložení** – Pochopit, jak je stránka strukturovaná – kde jsou nadpisy, odstavce, obrázky, tabulky.
- **Čištění a formátování** – Správné sázení rovnic, formátování tabulek, rozpoznávání bloků kódu.
- **Volitelné vylepšení pomocí LLM** – Pokud chcete vyšší přesnost, Marker může zavolat velký jazykový model (Gemini, Claude, OpenAI), který „chytří“ nuance.
- **Finální postprocessing** – Spojení bloků a výstup v požadovaném formátu.
==== Výkon a přesnost ====
Marker se pyšní benchmarky. Oproti konkurenčním cloudovým řešením (jako Llamaparse či Mathpix):
* **Rychlejší** – Zpracuje jednu stránku přibližně za 0,18 sekundy na H100 GPU. V hromadném režimu může dosáhnout až 122 stran za sekundu.
* **Přesnější** – Podle testů dosahuje skóre přesnosti kolem 95–97 % v závislosti na typu dokumentu.
* **Levnější** – Když spustíte Marker lokálně, nemusíte platit za cloudové služby.
**Specificky pro jednotlivé typy dokumentů:**
^ Typ dokumentu ^ Přesnost ^
| Vědecké články | 96,7 % |
| Stránky knih | 97,2 % |
| Dopisy | 98,4 % |
| Formuláře | 88 % |
==== Instalace a použití ====
=== Základní instalace ===
pip install marker-pdf
Pokud chcete pracovat s více typy dokumentů než jen PDF:
pip install marker-pdf[full]
=== Jednoduchý příkaz ===
Převod jednoho souboru:
marker_single /cesta/k/souboru.pdf
=== Hromadné zpracování ===
Chcete převést celou složku dokumentů?
marker /cesta/k/slozce
Marker automaticky detekuje dostupné zdroje (GPU, CPU) a optimalizuje práci. Výchozí výstup je markdown, ale můžete specifikovat i JSON, HTML nebo čunky.
=== Vylepšená přesnost s LLM ===
Pro vyšší kvalitu můžete zapnout podporu LLM:
marker_single /cesta/k/souboru.pdf --use_llm --gemini_api_key YOUR_KEY
Marker podporuje Gemini, OpenAI, Anthropic (Claude), Ollama a další. Tímto způsobem dosáhne ještě vyšší přesnosti, zvlášť u složitějších dokumentů.
=== Interaktivní GUI ===
Chcete si vyzkoušet Marker interaktivně?
pip install streamlit streamlit-ace
marker_gui
Otevře se webové rozhraní, kde si můžete hrát s možnostmi.
==== Praktické příklady ====
=== Příklad 1: Převod vědeckého článku ===
Máte PDF s vědeckým článkem, který chcete zpracovat pro AI aplikaci:
marker_single research_paper.pdf --output_format json --use_llm
Výstupem bude JSON s hierarchickou strukturou všech prvků – nadpisy, paragrafy, rovnice, tabulky, vše strukturované.
=== Příklad 2: Extrakce tabulek ===
Máte finanční report s tabulkami a chcete vytáhnout jen je:
marker_single financial_report.pdf --converter_cls marker.converters.table.TableConverter --output_format json
=== Příklad 3: Zpracování skandovaných dokumentů ===
Starý dokument ve formě skenů? Marker zapne OCR:
marker_single scanned_document.pdf --force_ocr
==== Omezení a kdy Marker nestačí ====
Marker je výborný, ale má hranice. Nejsou to selhání, spíše okraje:
* **Velmi složité rozložení** – Vnořené tabulky a formuláře mohou být problematické.
* **Formuláře** – Jejich rozpoznávání není dokonalé (skóre 88 %).
* **Lokální model** – Bez internetu a bez API klíčů můžete Marker spustit, ale bez LLM vylepšení.
Řešením je použít příznak %%--use_llm%% a %%--force_ocr%%, což řeší většinu těchto problémů.
==== Open-source vs. komerční řešení ====
Marker je dostupný jako open-source (pod GPL licencí s výjimkami pro výzkum a startupy do 2M dolarů financování), ale Datalab nabízí i hostovanou API verzi za cenu. Tato verze je 4× levnější než konkurence a zpracuje stránku PDF přibližně za 15 sekund.
==== Závěr ====
Marker je solidní volba pro všechny, kdo potřebují spolehlivě převádět dokumenty do strukturovaného formátu. Ať už jste vědecký tým zpracovávající články, podnikání s hromadou kontraktů, nebo AI vývojář připravující data – Marker vás nezklame. Kombinuje rychlost, přesnost a rozumnou cenu.
Jestliže vám stačí základní conversion, spusťte si ho lokálně zdarma. Pokud potřebujete maximální přesnost a nemusíte se starat o infrastrukturu, zkuste cloudový API. Buď jak buď, je to nástroj, který si zaslouží pozornost.