ai:modely:voxtral-4b-tts-2603

Voxtral-4B-TTS-2603 od Mistral AI

Voxtral-4B-TTS-2603 je open-weights text-to-speech model od Mistral AI pro generování řeči z textu. Podle model card je cílený hlavně na voice agenty, nízkou latenci a produkční nasazení. Na model upozorňuje i příspěvek na X, ale pro technické detaily je potřeba vycházet hlavně z oficiálního popisu modelu.

Podle model card nabízí zejména:

  • realistickou a expresivní syntézu řeči s přirozenější prosodií
  • podporu 9 jazyků: angličtina, francouzština, španělština, němčina, italština, portugalština, nizozemština, arabština a hindština
  • 20 předpřipravených hlasů a možnost adaptace na nové hlasy
  • výstup v kvalitě 24 kHz
  • export do formátů WAV, PCM, FLAC, MP3, AAC a Opus
  • streaming i batch inference

Model je vedený jako 4B a je publikovaný s BF16 vahami.

V model card jsou uvedené tyto praktické informace:

  • doporučené nasazení přes vllm-omni
  • běh na jedné GPU s alespoň 16 GB paměti
  • zaměření na vysokou propustnost a realtime voice workflow

Benchmark v model card je měřený na vstupu o délce 500 znaků a s 10sekundovou hlasovou referencí na jedné NVIDIA H200.

Konkurence Latence RTF Propustnost (znaků za sekundu na GPU)
1 70 ms 0.103 119.14
16 331 ms 0.237 879.11
32 552 ms 0.302 1430.78

Poznámka: v model card je uvedeno, že tabulka převádí RTF do standardní konvence, kde nižší hodnota znamená lepší výsledek.

Tady je nejjednodušší cesta pro rozběhnutí serveru podle model card:

uv pip install -U vllm
uv pip install vllm-omni --upgrade
vllm serve mistralai/Voxtral-4B-TTS-2603 --omni

Pokud je potřeba ověřit verzi knihovny mistral_common, model card uvádí tento příkaz:

python3 -c "import mistral_common; print(mistral_common.__version__)"

Jednoduchý klient pro volání API může vypadat takto:

import io
import httpx
import soundfile as sf
 
BASE_URL = "http://<your-server-url>:8000/v1"
 
payload = {
    "input": "Paris is a beautiful city!",
    "model": "mistralai/Voxtral-4B-TTS-2603",
    "response_format": "wav",
    "voice": "casual_male",
}
 
response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0)
response.raise_for_status()
 
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Got audio: {len(audio_array)} samples at {sr} Hz")

Podle popisu modelu je Voxtral-4B-TTS-2603 zaměřený hlavně na:

  • voice agenty a call centra
  • zákaznickou podporu
  • realtime překlad
  • workflow, kde je důležitá nízká latence a průběžné streamování odpovědi

Model je popsaný jako open-weights, ne jako plně otevřený software v běžném smyslu. Podle model card dědí licenci CC BY-NC 4.0 po použitých referenčních hlasech, takže je potřeba počítat s omezením na nekomerční použití.

  • ai/modely/voxtral-4b-tts-2603.txt
  • Poslední úprava: 2026/04/09 20:11
  • autor: Petr Nosek