Máte hromadu PDF souborů, které potřebujete převést do čitatelné a strukturované podoby? Nebo pracujete s obrázky, PowerPointy a dalšími dokumenty, které chcete mít v jednotném formátu? Marker je open-source nástroj, který vám s tím pomůže – a dělá to překvapivě dobře.

Marker je konverzní nástroj vyvinutý společností Datalab, který transformuje PDF, obrázky a další dokumenty (PPTX, DOCX, XLSX, HTML, EPUB) do markdownu, JSON, HTML nebo jiných formátů. Jde v podstatě o inteligentní převodník, který nejen stáhne text, ale snaží se zachovat strukturu dokumentu – tabulky, rovnice, seznamy, odsazení a vše ostatní.

Hlavní praktické použití Markeru:

  • Digitalizace starých dokumentů – Převody papírových či naskenovaných souborů do digitální podoby s OCR (optickým rozpoznáváním znaků)
  • Příprava dat pro AI aplikace – Strukturovaný výstup v JSON formátu se hodí pro trénování nebo ingestování do RAG (Retrieval Augmented Generation) systémů
  • Archivace a vyhledávání – Markdown či JSON je lépe indexovatelný a prohledávatelný než binární PDF
  • Extrakce formulářů a tabulek – Specialní konvertor umožňuje vyextrahovat jen tabulky nebo formuláře
  • Hromadné zpracování – Marker zvládá zpracovávat desítky nebo stovky dokumentů v dávkách

Marker používá ověřenou strategii – kombinuje heuristiku s hlubokým učením. Konkrétně:

  1. Extrakce textu a OCR – Marker se pokusí vyextrahovat text z digitálních PDF. Pokud selže, zapne OCR (pomocí nástroje Surya).
  2. Detekce rozložení – Pochopit, jak je stránka strukturovaná – kde jsou nadpisy, odstavce, obrázky, tabulky.
  3. Čištění a formátování – Správné sázení rovnic, formátování tabulek, rozpoznávání bloků kódu.
  4. Volitelné vylepšení pomocí LLM – Pokud chcete vyšší přesnost, Marker může zavolat velký jazykový model (Gemini, Claude, OpenAI), který „chytří“ nuance.
  5. Finální postprocessing – Spojení bloků a výstup v požadovaném formátu.

Marker se pyšní benchmarky. Oproti konkurenčním cloudovým řešením (jako Llamaparse či Mathpix):

  • Rychlejší – Zpracuje jednu stránku přibližně za 0,18 sekundy na H100 GPU. V hromadném režimu může dosáhnout až 122 stran za sekundu.
  • Přesnější – Podle testů dosahuje skóre přesnosti kolem 95–97 % v závislosti na typu dokumentu.
  • Levnější – Když spustíte Marker lokálně, nemusíte platit za cloudové služby.

Specificky pro jednotlivé typy dokumentů:

Typ dokumentu Přesnost
Vědecké články 96,7 %
Stránky knih 97,2 %
Dopisy 98,4 %
Formuláře 88 %

Základní instalace

pip install marker-pdf

Pokud chcete pracovat s více typy dokumentů než jen PDF:

pip install marker-pdf[full]

Jednoduchý příkaz

Převod jednoho souboru:

marker_single /cesta/k/souboru.pdf

Hromadné zpracování

Chcete převést celou složku dokumentů?

marker /cesta/k/slozce

Marker automaticky detekuje dostupné zdroje (GPU, CPU) a optimalizuje práci. Výchozí výstup je markdown, ale můžete specifikovat i JSON, HTML nebo čunky.

Vylepšená přesnost s LLM

Pro vyšší kvalitu můžete zapnout podporu LLM:

marker_single /cesta/k/souboru.pdf --use_llm --gemini_api_key YOUR_KEY

Marker podporuje Gemini, OpenAI, Anthropic (Claude), Ollama a další. Tímto způsobem dosáhne ještě vyšší přesnosti, zvlášť u složitějších dokumentů.

Interaktivní GUI

Chcete si vyzkoušet Marker interaktivně?

pip install streamlit streamlit-ace
marker_gui

Otevře se webové rozhraní, kde si můžete hrát s možnostmi.

Příklad 1: Převod vědeckého článku

Máte PDF s vědeckým článkem, který chcete zpracovat pro AI aplikaci:

marker_single research_paper.pdf --output_format json --use_llm

Výstupem bude JSON s hierarchickou strukturou všech prvků – nadpisy, paragrafy, rovnice, tabulky, vše strukturované.

Příklad 2: Extrakce tabulek

Máte finanční report s tabulkami a chcete vytáhnout jen je:

marker_single financial_report.pdf --converter_cls marker.converters.table.TableConverter --output_format json

Příklad 3: Zpracování skandovaných dokumentů

Starý dokument ve formě skenů? Marker zapne OCR:

marker_single scanned_document.pdf --force_ocr

Marker je výborný, ale má hranice. Nejsou to selhání, spíše okraje:

  • Velmi složité rozložení – Vnořené tabulky a formuláře mohou být problematické.
  • Formuláře – Jejich rozpoznávání není dokonalé (skóre 88 %).
  • Lokální model – Bez internetu a bez API klíčů můžete Marker spustit, ale bez LLM vylepšení.

Řešením je použít příznak --use_llm a --force_ocr, což řeší většinu těchto problémů.

Marker je dostupný jako open-source (pod GPL licencí s výjimkami pro výzkum a startupy do 2M dolarů financování), ale Datalab nabízí i hostovanou API verzi za cenu. Tato verze je 4× levnější než konkurence a zpracuje stránku PDF přibližně za 15 sekund.

Marker je solidní volba pro všechny, kdo potřebují spolehlivě převádět dokumenty do strukturovaného formátu. Ať už jste vědecký tým zpracovávající články, podnikání s hromadou kontraktů, nebo AI vývojář připravující data – Marker vás nezklame. Kombinuje rychlost, přesnost a rozumnou cenu.

Jestliže vám stačí základní conversion, spusťte si ho lokálně zdarma. Pokud potřebujete maximální přesnost a nemusíte se starat o infrastrukturu, zkuste cloudový API. Buď jak buď, je to nástroj, který si zaslouží pozornost.

  • it/ai/prakticke-aplikace/prevod-dokumentu-na-markdown.txt
  • Poslední úprava: 2025/10/12 18:00
  • autor: Petr Nosek