Marker: Převod dokumentů na markdown s vysokou přesností
Máte hromadu PDF souborů, které potřebujete převést do čitatelné a strukturované podoby? Nebo pracujete s obrázky, PowerPointy a dalšími dokumenty, které chcete mít v jednotném formátu? Marker je open-source nástroj, který vám s tím pomůže – a dělá to překvapivě dobře.
Co je Marker a k čemu slouží?
Marker je konverzní nástroj vyvinutý společností Datalab, který transformuje PDF, obrázky a další dokumenty (PPTX, DOCX, XLSX, HTML, EPUB) do markdownu, JSON, HTML nebo jiných formátů. Jde v podstatě o inteligentní převodník, který nejen stáhne text, ale snaží se zachovat strukturu dokumentu – tabulky, rovnice, seznamy, odsazení a vše ostatní.
Hlavní praktické použití Markeru:
- Digitalizace starých dokumentů – Převody papírových či naskenovaných souborů do digitální podoby s OCR (optickým rozpoznáváním znaků)
- Příprava dat pro AI aplikace – Strukturovaný výstup v JSON formátu se hodí pro trénování nebo ingestování do RAG (Retrieval Augmented Generation) systémů
- Archivace a vyhledávání – Markdown či JSON je lépe indexovatelný a prohledávatelný než binární PDF
- Extrakce formulářů a tabulek – Specialní konvertor umožňuje vyextrahovat jen tabulky nebo formuláře
- Hromadné zpracování – Marker zvládá zpracovávat desítky nebo stovky dokumentů v dávkách
Jak Marker funguje?
Marker používá ověřenou strategii – kombinuje heuristiku s hlubokým učením. Konkrétně:
- Extrakce textu a OCR – Marker se pokusí vyextrahovat text z digitálních PDF. Pokud selže, zapne OCR (pomocí nástroje Surya).
- Detekce rozložení – Pochopit, jak je stránka strukturovaná – kde jsou nadpisy, odstavce, obrázky, tabulky.
- Čištění a formátování – Správné sázení rovnic, formátování tabulek, rozpoznávání bloků kódu.
- Volitelné vylepšení pomocí LLM – Pokud chcete vyšší přesnost, Marker může zavolat velký jazykový model (Gemini, Claude, OpenAI), který „chytří“ nuance.
- Finální postprocessing – Spojení bloků a výstup v požadovaném formátu.
Výkon a přesnost
Marker se pyšní benchmarky. Oproti konkurenčním cloudovým řešením (jako Llamaparse či Mathpix):
- Rychlejší – Zpracuje jednu stránku přibližně za 0,18 sekundy na H100 GPU. V hromadném režimu může dosáhnout až 122 stran za sekundu.
- Přesnější – Podle testů dosahuje skóre přesnosti kolem 95–97 % v závislosti na typu dokumentu.
- Levnější – Když spustíte Marker lokálně, nemusíte platit za cloudové služby.
Specificky pro jednotlivé typy dokumentů:
Typ dokumentu | Přesnost |
---|---|
Vědecké články | 96,7 % |
Stránky knih | 97,2 % |
Dopisy | 98,4 % |
Formuláře | 88 % |
Instalace a použití
Základní instalace
pip install marker-pdf
Pokud chcete pracovat s více typy dokumentů než jen PDF:
pip install marker-pdf[full]
Jednoduchý příkaz
Převod jednoho souboru:
marker_single /cesta/k/souboru.pdf
Hromadné zpracování
Chcete převést celou složku dokumentů?
marker /cesta/k/slozce
Marker automaticky detekuje dostupné zdroje (GPU, CPU) a optimalizuje práci. Výchozí výstup je markdown, ale můžete specifikovat i JSON, HTML nebo čunky.
Vylepšená přesnost s LLM
Pro vyšší kvalitu můžete zapnout podporu LLM:
marker_single /cesta/k/souboru.pdf --use_llm --gemini_api_key YOUR_KEY
Marker podporuje Gemini, OpenAI, Anthropic (Claude), Ollama a další. Tímto způsobem dosáhne ještě vyšší přesnosti, zvlášť u složitějších dokumentů.
Interaktivní GUI
Chcete si vyzkoušet Marker interaktivně?
pip install streamlit streamlit-ace
marker_gui
Otevře se webové rozhraní, kde si můžete hrát s možnostmi.
Praktické příklady
Příklad 1: Převod vědeckého článku
Máte PDF s vědeckým článkem, který chcete zpracovat pro AI aplikaci:
marker_single research_paper.pdf --output_format json --use_llm
Výstupem bude JSON s hierarchickou strukturou všech prvků – nadpisy, paragrafy, rovnice, tabulky, vše strukturované.
Příklad 2: Extrakce tabulek
Máte finanční report s tabulkami a chcete vytáhnout jen je:
marker_single financial_report.pdf --converter_cls marker.converters.table.TableConverter --output_format json
Příklad 3: Zpracování skandovaných dokumentů
Starý dokument ve formě skenů? Marker zapne OCR:
marker_single scanned_document.pdf --force_ocr
Omezení a kdy Marker nestačí
Marker je výborný, ale má hranice. Nejsou to selhání, spíše okraje:
- Velmi složité rozložení – Vnořené tabulky a formuláře mohou být problematické.
- Formuláře – Jejich rozpoznávání není dokonalé (skóre 88 %).
- Lokální model – Bez internetu a bez API klíčů můžete Marker spustit, ale bez LLM vylepšení.
Řešením je použít příznak --use_llm a --force_ocr, což řeší většinu těchto problémů.
Open-source vs. komerční řešení
Marker je dostupný jako open-source (pod GPL licencí s výjimkami pro výzkum a startupy do 2M dolarů financování), ale Datalab nabízí i hostovanou API verzi za cenu. Tato verze je 4× levnější než konkurence a zpracuje stránku PDF přibližně za 15 sekund.
Závěr
Marker je solidní volba pro všechny, kdo potřebují spolehlivě převádět dokumenty do strukturovaného formátu. Ať už jste vědecký tým zpracovávající články, podnikání s hromadou kontraktů, nebo AI vývojář připravující data – Marker vás nezklame. Kombinuje rychlost, přesnost a rozumnou cenu.
Jestliže vám stačí základní conversion, spusťte si ho lokálně zdarma. Pokud potřebujete maximální přesnost a nemusíte se starat o infrastrukturu, zkuste cloudový API. Buď jak buď, je to nástroj, který si zaslouží pozornost.