Převod audia na text pomocí Whisper od OpenAI

Potřeboval jsem převést audio na text a s tím dále pracovat. Jednou z možností je použít nástroj Whisper od OpenAI: https://github.com/openai/whisper

Nástroj jsem instaloval lokálně a funguje i bez Nvidia grafické karty – jen bude převod pomalejší, protože se provádí na procesoru.

Whisper jsem nainstaloval pomocí následujícího příkazu:

pip3 install git+https://github.com/openai/whisper.git

Pro převod jsem použil model `turbo`. Spustil jsem příkaz:

whisper video.mp4 --model turbo --language cs

Při prvním spuštění se automaticky stáhl model `turbo`. Zadal jsem i jazyk (`–language cs`), abych modelu usnadnil práci.

Zjistil jsem, že není potřeba extrahovat audio zvlášť z videa. Whisper si sám vezme audio stopu ze vstupního video souboru.

Pomocí tohoto příkazu se vypisuje text jak na terminál, tak do souboru:

whisper video.mp4 --model turbo --language cs | tee vystup.txt

Podle dokumentace lze Whisper aktualizovat takto:

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

Model postupně přepisuje text včetně časové stopy přímo na obrazovku.

Nvidia nabízí ultrarychlý nástroj Parakeet. Nicméně jsem ho nezkoušel.

Převod audia na text pomocí Whisper od OpenAI

Instalace nástroje

Použití nástroje

Aktualizace nástroje

Výstup nástroje

Alternativní nástroje

Wiki