Převod audia na text pomocí Whisper od OpenAI
Potřeboval jsem převést audio na text a s tím dále pracovat. Jednou z možností je použít nástroj Whisper od OpenAI: https://github.com/openai/whisper
Nástroj jsem instaloval lokálně a funguje i bez Nvidia grafické karty – jen bude převod pomalejší, protože se provádí na procesoru.
Instalace nástroje
Whisper jsem nainstaloval pomocí následujícího příkazu:
pip3 install git+https://github.com/openai/whisper.git
Použití nástroje
Pro převod jsem použil model `turbo`. Spustil jsem příkaz:
whisper video.mp4 --model turbo --language cs
Při prvním spuštění se automaticky stáhl model `turbo`. Zadal jsem i jazyk (`–language cs`), abych modelu usnadnil práci.
Zjistil jsem, že není potřeba extrahovat audio zvlášť z videa. Whisper si sám vezme audio stopu ze vstupního video souboru.
Pomocí tohoto příkazu se vypisuje text jak na terminál, tak do souboru:
whisper video.mp4 --model turbo --language cs | tee vystup.txt
Aktualizace nástroje
Podle dokumentace lze Whisper aktualizovat takto:
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
Výstup nástroje
Model postupně přepisuje text včetně časové stopy přímo na obrazovku.