Voxtral-4B-TTS-2603 od Mistral AI
Voxtral-4B-TTS-2603 je open-weights text-to-speech model od Mistral AI pro generování řeči z textu. Podle model card je cílený hlavně na voice agenty, nízkou latenci a produkční nasazení. Na model upozorňuje i příspěvek na X, ale pro technické detaily je potřeba vycházet hlavně z oficiálního popisu modelu.
Co model umí
Podle model card nabízí zejména:
- realistickou a expresivní syntézu řeči s přirozenější prosodií
- podporu 9 jazyků: angličtina, francouzština, španělština, němčina, italština, portugalština, nizozemština, arabština a hindština
- 20 předpřipravených hlasů a možnost adaptace na nové hlasy
- výstup v kvalitě 24 kHz
- export do formátů
WAV,PCM,FLAC,MP3,AACaOpus - streaming i batch inference
Model je vedený jako 4B a je publikovaný s BF16 vahami.
Praktické parametry
V model card jsou uvedené tyto praktické informace:
- doporučené nasazení přes
vllm-omni - běh na jedné GPU s alespoň 16 GB paměti
- zaměření na vysokou propustnost a realtime voice workflow
Benchmark v model card je měřený na vstupu o délce 500 znaků a s 10sekundovou hlasovou referencí na jedné NVIDIA H200.
| Konkurence | Latence | RTF | Propustnost (znaků za sekundu na GPU) |
|---|---|---|---|
| 1 | 70 ms | 0.103 | 119.14 |
| 16 | 331 ms | 0.237 | 879.11 |
| 32 | 552 ms | 0.302 | 1430.78 |
Poznámka: v model card je uvedeno, že tabulka převádí RTF do standardní konvence, kde nižší hodnota znamená lepší výsledek.
Minimalistické spuštění
Tady je nejjednodušší cesta pro rozběhnutí serveru podle model card:
uv pip install -U vllm uv pip install vllm-omni --upgrade vllm serve mistralai/Voxtral-4B-TTS-2603 --omni
Pokud je potřeba ověřit verzi knihovny mistral_common, model card uvádí tento příkaz:
python3 -c "import mistral_common; print(mistral_common.__version__)"
Jednoduchý klient pro volání API může vypadat takto:
import io import httpx import soundfile as sf BASE_URL = "http://<your-server-url>:8000/v1" payload = { "input": "Paris is a beautiful city!", "model": "mistralai/Voxtral-4B-TTS-2603", "response_format": "wav", "voice": "casual_male", } response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0) response.raise_for_status() audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32") print(f"Got audio: {len(audio_array)} samples at {sr} Hz")
Kdy to dává smysl
Podle popisu modelu je Voxtral-4B-TTS-2603 zaměřený hlavně na:
- voice agenty a call centra
- zákaznickou podporu
- realtime překlad
- workflow, kde je důležitá nízká latence a průběžné streamování odpovědi
Co si pohlídat
Model je popsaný jako open-weights, ne jako plně otevřený software v běžném smyslu. Podle model card dědí licenci CC BY-NC 4.0 po použitých referenčních hlasech, takže je potřeba počítat s omezením na nekomerční použití.