====== Převod audia na text pomocí Whisper od OpenAI ====== Potřeboval jsem převést audio na text a s tím dále pracovat. Jednou z možností je použít nástroj **Whisper od OpenAI**: [[https://github.com/openai/whisper|https://github.com/openai/whisper]] Nástroj jsem instaloval **lokálně** a funguje i bez Nvidia grafické karty – jen bude převod **pomalejší**, protože se provádí na procesoru. ===== Instalace nástroje ===== Whisper jsem nainstaloval pomocí následujícího příkazu: pip3 install git+https://github.com/openai/whisper.git ===== Použití nástroje ===== Pro převod jsem použil **model `turbo`**. Spustil jsem příkaz: whisper video.mp4 --model turbo --language cs Při prvním spuštění se automaticky **stáhl model `turbo`**. Zadal jsem i jazyk (`--language cs`), abych modelu usnadnil práci. Zjistil jsem, že **není potřeba extrahovat audio** zvlášť z videa. Whisper si sám **vezme audio stopu** ze vstupního video souboru. Pomocí tohoto příkazu se vypisuje text jak na terminál, tak do souboru: whisper video.mp4 --model turbo --language cs | tee vystup.txt ===== Aktualizace nástroje ===== Podle dokumentace lze Whisper aktualizovat takto: pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git ===== Výstup nástroje ===== Model postupně přepisuje text **včetně časové stopy** přímo na obrazovku.