Obsah

Voxtral-4B-TTS-2603 od Mistral AI

Voxtral-4B-TTS-2603 je open-weights text-to-speech model od Mistral AI pro generování řeči z textu. Podle model card je cílený hlavně na voice agenty, nízkou latenci a produkční nasazení. Na model upozorňuje i příspěvek na X, ale pro technické detaily je potřeba vycházet hlavně z oficiálního popisu modelu.

Co model umí

Podle model card nabízí zejména:

Model je vedený jako 4B a je publikovaný s BF16 vahami.

Praktické parametry

V model card jsou uvedené tyto praktické informace:

Benchmark v model card je měřený na vstupu o délce 500 znaků a s 10sekundovou hlasovou referencí na jedné NVIDIA H200.

Konkurence Latence RTF Propustnost (znaků za sekundu na GPU)
1 70 ms 0.103 119.14
16 331 ms 0.237 879.11
32 552 ms 0.302 1430.78

Poznámka: v model card je uvedeno, že tabulka převádí RTF do standardní konvence, kde nižší hodnota znamená lepší výsledek.

Minimalistické spuštění

Tady je nejjednodušší cesta pro rozběhnutí serveru podle model card:

uv pip install -U vllm
uv pip install vllm-omni --upgrade
vllm serve mistralai/Voxtral-4B-TTS-2603 --omni

Pokud je potřeba ověřit verzi knihovny mistral_common, model card uvádí tento příkaz:

python3 -c "import mistral_common; print(mistral_common.__version__)"

Jednoduchý klient pro volání API může vypadat takto:

import io
import httpx
import soundfile as sf
 
BASE_URL = "http://<your-server-url>:8000/v1"
 
payload = {
    "input": "Paris is a beautiful city!",
    "model": "mistralai/Voxtral-4B-TTS-2603",
    "response_format": "wav",
    "voice": "casual_male",
}
 
response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0)
response.raise_for_status()
 
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Got audio: {len(audio_array)} samples at {sr} Hz")

Kdy to dává smysl

Podle popisu modelu je Voxtral-4B-TTS-2603 zaměřený hlavně na:

Co si pohlídat

Model je popsaný jako open-weights, ne jako plně otevřený software v běžném smyslu. Podle model card dědí licenci CC BY-NC 4.0 po použitých referenčních hlasech, takže je potřeba počítat s omezením na nekomerční použití.

Zdroje