====== Převod audia na text pomocí Whisper od OpenAI ======
Potřeboval jsem převést audio na text a s tím dále pracovat. Jednou z možností je použít nástroj **Whisper od OpenAI**:
[[https://github.com/openai/whisper|https://github.com/openai/whisper]]
Nástroj jsem instaloval **lokálně** a funguje i bez Nvidia grafické karty – jen bude převod **pomalejší**, protože se provádí na procesoru.
===== Instalace nástroje =====
Whisper jsem nainstaloval pomocí následujícího příkazu:
pip3 install git+https://github.com/openai/whisper.git
===== Použití nástroje =====
Pro převod jsem použil **model `turbo`**. Spustil jsem příkaz:
whisper video.mp4 --model turbo --language cs
Při prvním spuštění se automaticky **stáhl model `turbo`**. Zadal jsem i jazyk (`--language cs`), abych modelu usnadnil práci.
Zjistil jsem, že **není potřeba extrahovat audio** zvlášť z videa. Whisper si sám **vezme audio stopu** ze vstupního video souboru.
Pomocí tohoto příkazu se vypisuje text jak na terminál, tak do souboru:
whisper video.mp4 --model turbo --language cs | tee vystup.txt
===== Aktualizace nástroje =====
Podle dokumentace lze Whisper aktualizovat takto:
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
===== Výstup nástroje =====
Model postupně přepisuje text **včetně časové stopy** přímo na obrazovku.