it:ai:prevod-audia-na-text-pomoci-whisper

Převod audia na text pomocí Whisper od OpenAI

Potřeboval jsem převést audio na text a s tím dále pracovat. Jednou z možností je použít nástroj Whisper od OpenAI: https://github.com/openai/whisper

Nástroj jsem instaloval lokálně a funguje i bez Nvidia grafické karty – jen bude převod pomalejší, protože se provádí na procesoru.

Whisper jsem nainstaloval pomocí následujícího příkazu:

pip3 install git+https://github.com/openai/whisper.git

Pro převod jsem použil model `turbo`. Spustil jsem příkaz:

whisper video.mp4 --model turbo --language cs

Při prvním spuštění se automaticky stáhl model `turbo`. Zadal jsem i jazyk (`–language cs`), abych modelu usnadnil práci.

Zjistil jsem, že není potřeba extrahovat audio zvlášť z videa. Whisper si sám vezme audio stopu ze vstupního video souboru.

Pomocí tohoto příkazu se vypisuje text jak na terminál, tak do souboru:

whisper video.mp4 --model turbo --language cs | tee vystup.txt

Podle dokumentace lze Whisper aktualizovat takto:

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

Model postupně přepisuje text včetně časové stopy přímo na obrazovku.

  • it/ai/prevod-audia-na-text-pomoci-whisper.txt
  • Poslední úprava: 2025/04/20 20:49
  • autor: Petr Nosek