OpenWhispr

OpenWhispr je open-source desktopová aplikace pro převod řeči na text, diktování do libovolné aplikace, přepis schůzek a práci s poznámkami. Projekt cílí na privacy-first použití a umožňuje běh jak s lokálními speech-to-text modely, tak s cloudovými službami.

Podle README repozitáře OpenWhispr kombinuje několik funkcí do jedné desktopové aplikace:

diktování textu přes globální klávesovou zkratku do libovolné aplikace
přepis schůzek
AI asistenta napojeného na různé modely
správu poznámek
veřejné API a MCP integraci

Projekt je dostupný pro macOS, Windows i Linux.

Jedna z hlavních vlastností OpenWhispru je možnost volby mezi lokálním a cloudovým zpracováním. V README je jako lokální varianta uvedený například Whisper a NVIDIA Parakeet. Pokud běží zpracování lokálně, audio nemusí opustit zařízení.

To je praktické hlavně tam, kde je důležitá kontrola nad soukromím, nižší závislost na externí službě nebo možnost provozu bez trvalého připojení ke cloudu.

OpenWhispr umí převést mluvené slovo na text a vložit ho do aktuálně otevřené aplikace. Model použití je jednoduchý: stisk klávesové zkratky, nadiktování textu a automatické vložení na pozici kurzoru.

Projekt uvádí i AI asistenta, který může být napojený na modely jako GPT-5, Claude, Gemini, Groq nebo lokální modely. Nejde tedy jen o čistý speech-to-text, ale i o další zpracování textu nebo hlasového vstupu.

README zmiňuje automatickou detekci schůzek v aplikacích jako Zoom, Teams a FaceTime. Součástí je i diarizace mluvčích a rozpoznávání hlasových fingerprintů.

OpenWhispr obsahuje i vrstvu pro práci s poznámkami. Podle dokumentace projektu má umět organizaci do složek, vyhledávání a další AI akce nad obsahem.

Projekt má veřejné API a podporu MCP. To je zajímavé hlavně pro automatizaci, napojení na další nástroje a integraci s AI asistenty. Přehled API a MCP integrace je v oficiální dokumentaci: API overview a MCP server setup.

README uvádí tento základní postup pro lokální spuštění vývojové verze:

git clone https://github.com/OpenWhispr/openwhispr.git
cd openwhispr
npm install
npm run dev

Pro vývoj je podle README potřeba Node.js 24 nebo novější.

V repozitáři jsou jako hlavní technologie uvedené například:

React 19
TypeScript
Tailwind CSS v4
Electron 41
better-sqlite3
whisper.cpp
sherpa-onnx
shadcn/ui

Z toho je vidět, že jde o desktopovou aplikaci postavenou nad Electronem s webovým frontendem a napojením na lokální AI komponenty.

OpenWhispr dává smysl hlavně v situacích, kdy je potřeba:

rychlé diktování textu do různých aplikací
lokální speech-to-text bez posílání audia do cloudu
přepis online schůzek
propojení poznámek, přepisů a AI workflow v jednom nástroji
otevřené řešení, které je možné upravovat nebo integrovat přes API

Jako možná alternativa vypadá PushToTalk. Podle README jde o linuxový projekt zaměřený na push-to-talk ovládání voice assistanta, který sleduje tlačítka myši a spouští speech-to-text nahrávání.

Podle dokumentace je projekt určený pro Linux a testovaný na Debianu a Ubuntu. V požadavcích je uvedené .NET 10 SDK a knihovna libevdev.

Nezkoušel jsem ho, protože kvůli tomu nechci instalovat .NET, ale jako alternativa k dalším linuxovým voice workflow dává smysl mít ho uložený aspoň k pozdějšímu prozkoumání.