Převod audia na text pomocí Whisper od OpenAI

Potřeboval jsem převést audio na text a s tím dále pracovat. Jednou z možností je použít nástroj Whisper od OpenAI: https://github.com/openai/whisper

Nástroj jsem instaloval lokálně a funguje i bez Nvidia grafické karty – jen bude převod pomalejší, protože se provádí na procesoru.

Instalace nástroje

Whisper jsem nainstaloval pomocí následujícího příkazu:

pip3 install git+https://github.com/openai/whisper.git

Použití nástroje

Pro převod jsem použil model `turbo`. Spustil jsem příkaz:

whisper video.mp4 --model turbo --language cs

Při prvním spuštění se automaticky stáhl model `turbo`. Zadal jsem i jazyk (`–language cs`), abych modelu usnadnil práci.

Zjistil jsem, že není potřeba extrahovat audio zvlášť z videa. Whisper si sám vezme audio stopu ze vstupního video souboru.

Pomocí tohoto příkazu se vypisuje text jak na terminál, tak do souboru:

whisper video.mp4 --model turbo --language cs | tee vystup.txt

Aktualizace nástroje

Podle dokumentace lze Whisper aktualizovat takto:

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

Výstup nástroje

Model postupně přepisuje text včetně časové stopy přímo na obrazovku.

Alternativní nástroje

Nvidia nabízí ultrarychlý nástroj Parakeet. Nicméně jsem ho nezkoušel.