====== Převod audia na text pomocí Whisper od OpenAI ======

Potřeboval jsem převést audio na text a s tím dále pracovat. Jednou z možností je použít nástroj **Whisper od OpenAI**:  
[[https://github.com/openai/whisper|https://github.com/openai/whisper]]

Nástroj jsem instaloval **lokálně** a funguje i bez Nvidia grafické karty – jen bude převod **pomalejší**, protože se provádí na procesoru.

===== Instalace nástroje =====

Whisper jsem nainstaloval pomocí následujícího příkazu:

<code bash>
pip3 install git+https://github.com/openai/whisper.git
</code>

===== Použití nástroje =====

Pro převod jsem použil **model `turbo`**. Spustil jsem příkaz:

<code bash>
whisper video.mp4 --model turbo --language cs
</code>

Při prvním spuštění se automaticky **stáhl model `turbo`**. Zadal jsem i jazyk (`--language cs`), abych modelu usnadnil práci.

Zjistil jsem, že **není potřeba extrahovat audio** zvlášť z videa. Whisper si sám **vezme audio stopu** ze vstupního video souboru.

Pomocí tohoto příkazu se vypisuje text jak na terminál, tak do souboru:

<code bash>
whisper video.mp4 --model turbo --language cs | tee vystup.txt
</code>

===== Aktualizace nástroje =====

Podle dokumentace lze Whisper aktualizovat takto:

<code bash>
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
</code>

===== Výstup nástroje =====

Model postupně přepisuje text **včetně časové stopy** přímo na obrazovku.


===== Alternativní nástroje =====

Nvidia nabízí ultrarychlý nástroj Parakeet. Nicméně jsem ho nezkoušel.