====== Voxtral-4B-TTS-2603 od Mistral AI ======

[[https://huggingface.co/mistralai/Voxtral-4B-TTS-2603|Voxtral-4B-TTS-2603]] je open-weights text-to-speech model od Mistral AI pro generování řeči z textu. Podle model card je cílený hlavně na voice agenty, nízkou latenci a produkční nasazení. Na model upozorňuje i [[https://x.com/TheGeorgePu/status/2037930340975538184|příspěvek na X]], ale pro technické detaily je potřeba vycházet hlavně z oficiálního popisu modelu.

===== Co model umí =====

Podle model card nabízí zejména:

  * realistickou a expresivní syntézu řeči s přirozenější prosodií
  * podporu 9 jazyků: angličtina, francouzština, španělština, němčina, italština, portugalština, nizozemština, arabština a hindština
  * 20 předpřipravených hlasů a možnost adaptace na nové hlasy
  * výstup v kvalitě 24 kHz
  * export do formátů ''WAV'', ''PCM'', ''FLAC'', ''MP3'', ''AAC'' a ''Opus''
  * streaming i batch inference

Model je vedený jako ''4B'' a je publikovaný s BF16 vahami.

===== Praktické parametry =====

V model card jsou uvedené tyto praktické informace:

  * doporučené nasazení přes ''vllm-omni''
  * běh na jedné GPU s alespoň 16 GB paměti
  * zaměření na vysokou propustnost a realtime voice workflow

Benchmark v model card je měřený na vstupu o délce 500 znaků a s 10sekundovou hlasovou referencí na jedné NVIDIA H200.

^ Konkurence ^ Latence ^ RTF ^ Propustnost (znaků za sekundu na GPU) ^
| 1  | 70 ms  | 0.103 | 119.14 |
| 16 | 331 ms | 0.237 | 879.11 |
| 32 | 552 ms | 0.302 | 1430.78 |

Poznámka: v model card je uvedeno, že tabulka převádí RTF do standardní konvence, kde nižší hodnota znamená lepší výsledek.

===== Minimalistické spuštění =====

Tady je nejjednodušší cesta pro rozběhnutí serveru podle model card:

<code bash>
uv pip install -U vllm
uv pip install vllm-omni --upgrade
vllm serve mistralai/Voxtral-4B-TTS-2603 --omni
</code>

Pokud je potřeba ověřit verzi knihovny ''mistral_common'', model card uvádí tento příkaz:

<code bash>
python3 -c "import mistral_common; print(mistral_common.__version__)"
</code>

Jednoduchý klient pro volání API může vypadat takto:

<code python>
import io
import httpx
import soundfile as sf
 
BASE_URL = "http://<your-server-url>:8000/v1"
 
payload = {
    "input": "Paris is a beautiful city!",
    "model": "mistralai/Voxtral-4B-TTS-2603",
    "response_format": "wav",
    "voice": "casual_male",
}
 
response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0)
response.raise_for_status()
 
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Got audio: {len(audio_array)} samples at {sr} Hz")
</code>

===== Kdy to dává smysl =====

Podle popisu modelu je Voxtral-4B-TTS-2603 zaměřený hlavně na:

  * voice agenty a call centra
  * zákaznickou podporu
  * realtime překlad
  * workflow, kde je důležitá nízká latence a průběžné streamování odpovědi

===== Co si pohlídat =====

Model je popsaný jako ''open-weights'', ne jako plně otevřený software v běžném smyslu. Podle model card dědí licenci ''CC BY-NC 4.0'' po použitých referenčních hlasech, takže je potřeba počítat s omezením na nekomerční použití.

===== Zdroje =====

  * [[https://huggingface.co/mistralai/Voxtral-4B-TTS-2603|Voxtral-4B-TTS-2603 na Hugging Face]]
  * [[https://x.com/TheGeorgePu/status/2037930340975538184|Příspěvek na X]]