====== Voxtral-4B-TTS-2603 od Mistral AI ======
[[https://huggingface.co/mistralai/Voxtral-4B-TTS-2603|Voxtral-4B-TTS-2603]] je open-weights text-to-speech model od Mistral AI pro generování řeči z textu. Podle model card je cílený hlavně na voice agenty, nízkou latenci a produkční nasazení. Na model upozorňuje i [[https://x.com/TheGeorgePu/status/2037930340975538184|příspěvek na X]], ale pro technické detaily je potřeba vycházet hlavně z oficiálního popisu modelu.
===== Co model umí =====
Podle model card nabízí zejména:
* realistickou a expresivní syntézu řeči s přirozenější prosodií
* podporu 9 jazyků: angličtina, francouzština, španělština, němčina, italština, portugalština, nizozemština, arabština a hindština
* 20 předpřipravených hlasů a možnost adaptace na nové hlasy
* výstup v kvalitě 24 kHz
* export do formátů ''WAV'', ''PCM'', ''FLAC'', ''MP3'', ''AAC'' a ''Opus''
* streaming i batch inference
Model je vedený jako ''4B'' a je publikovaný s BF16 vahami.
===== Praktické parametry =====
V model card jsou uvedené tyto praktické informace:
* doporučené nasazení přes ''vllm-omni''
* běh na jedné GPU s alespoň 16 GB paměti
* zaměření na vysokou propustnost a realtime voice workflow
Benchmark v model card je měřený na vstupu o délce 500 znaků a s 10sekundovou hlasovou referencí na jedné NVIDIA H200.
^ Konkurence ^ Latence ^ RTF ^ Propustnost (znaků za sekundu na GPU) ^
| 1 | 70 ms | 0.103 | 119.14 |
| 16 | 331 ms | 0.237 | 879.11 |
| 32 | 552 ms | 0.302 | 1430.78 |
Poznámka: v model card je uvedeno, že tabulka převádí RTF do standardní konvence, kde nižší hodnota znamená lepší výsledek.
===== Minimalistické spuštění =====
Tady je nejjednodušší cesta pro rozběhnutí serveru podle model card:
uv pip install -U vllm
uv pip install vllm-omni --upgrade
vllm serve mistralai/Voxtral-4B-TTS-2603 --omni
Pokud je potřeba ověřit verzi knihovny ''mistral_common'', model card uvádí tento příkaz:
python3 -c "import mistral_common; print(mistral_common.__version__)"
Jednoduchý klient pro volání API může vypadat takto:
import io
import httpx
import soundfile as sf
BASE_URL = "http://:8000/v1"
payload = {
"input": "Paris is a beautiful city!",
"model": "mistralai/Voxtral-4B-TTS-2603",
"response_format": "wav",
"voice": "casual_male",
}
response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0)
response.raise_for_status()
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Got audio: {len(audio_array)} samples at {sr} Hz")
===== Kdy to dává smysl =====
Podle popisu modelu je Voxtral-4B-TTS-2603 zaměřený hlavně na:
* voice agenty a call centra
* zákaznickou podporu
* realtime překlad
* workflow, kde je důležitá nízká latence a průběžné streamování odpovědi
===== Co si pohlídat =====
Model je popsaný jako ''open-weights'', ne jako plně otevřený software v běžném smyslu. Podle model card dědí licenci ''CC BY-NC 4.0'' po použitých referenčních hlasech, takže je potřeba počítat s omezením na nekomerční použití.
===== Zdroje =====
* [[https://huggingface.co/mistralai/Voxtral-4B-TTS-2603|Voxtral-4B-TTS-2603 na Hugging Face]]
* [[https://x.com/TheGeorgePu/status/2037930340975538184|Příspěvek na X]]