Voxtral-4B-TTS-2603 od Mistral AI

Voxtral-4B-TTS-2603 je open-weights text-to-speech model od Mistral AI pro generování řeči z textu. Podle model card je cílený hlavně na voice agenty, nízkou latenci a produkční nasazení. Na model upozorňuje i příspěvek na X, ale pro technické detaily je potřeba vycházet hlavně z oficiálního popisu modelu.

Co model umí

Podle model card nabízí zejména:

realistickou a expresivní syntézu řeči s přirozenější prosodií
podporu 9 jazyků: angličtina, francouzština, španělština, němčina, italština, portugalština, nizozemština, arabština a hindština
20 předpřipravených hlasů a možnost adaptace na nové hlasy
výstup v kvalitě 24 kHz
export do formátů WAV, PCM, FLAC, MP3, AAC a Opus
streaming i batch inference

Model je vedený jako 4B a je publikovaný s BF16 vahami.

Praktické parametry

V model card jsou uvedené tyto praktické informace:

doporučené nasazení přes vllm-omni
běh na jedné GPU s alespoň 16 GB paměti
zaměření na vysokou propustnost a realtime voice workflow

Benchmark v model card je měřený na vstupu o délce 500 znaků a s 10sekundovou hlasovou referencí na jedné NVIDIA H200.

Konkurence	Latence	RTF	Propustnost (znaků za sekundu na GPU)
1	70 ms	0.103	119.14
16	331 ms	0.237	879.11
32	552 ms	0.302	1430.78

Poznámka: v model card je uvedeno, že tabulka převádí RTF do standardní konvence, kde nižší hodnota znamená lepší výsledek.

Minimalistické spuštění

Tady je nejjednodušší cesta pro rozběhnutí serveru podle model card:

uv pip install -U vllm
uv pip install vllm-omni --upgrade
vllm serve mistralai/Voxtral-4B-TTS-2603 --omni

Pokud je potřeba ověřit verzi knihovny mistral_common, model card uvádí tento příkaz:

python3 -c "import mistral_common; print(mistral_common.__version__)"

Jednoduchý klient pro volání API může vypadat takto:

import io
import httpx
import soundfile as sf
 
BASE_URL = "http://<your-server-url>:8000/v1"
 
payload = {
    "input": "Paris is a beautiful city!",
    "model": "mistralai/Voxtral-4B-TTS-2603",
    "response_format": "wav",
    "voice": "casual_male",
}
 
response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0)
response.raise_for_status()
 
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Got audio: {len(audio_array)} samples at {sr} Hz")

Kdy to dává smysl

Podle popisu modelu je Voxtral-4B-TTS-2603 zaměřený hlavně na:

voice agenty a call centra
zákaznickou podporu
realtime překlad
workflow, kde je důležitá nízká latence a průběžné streamování odpovědi

Co si pohlídat

Model je popsaný jako open-weights, ne jako plně otevřený software v běžném smyslu. Podle model card dědí licenci CC BY-NC 4.0 po použitých referenčních hlasech, takže je potřeba počítat s omezením na nekomerční použití.

Obsah