====== Voxtral-4B-TTS-2603 od Mistral AI ====== [[https://huggingface.co/mistralai/Voxtral-4B-TTS-2603|Voxtral-4B-TTS-2603]] je open-weights text-to-speech model od Mistral AI pro generování řeči z textu. Podle model card je cílený hlavně na voice agenty, nízkou latenci a produkční nasazení. Na model upozorňuje i [[https://x.com/TheGeorgePu/status/2037930340975538184|příspěvek na X]], ale pro technické detaily je potřeba vycházet hlavně z oficiálního popisu modelu. ===== Co model umí ===== Podle model card nabízí zejména: * realistickou a expresivní syntézu řeči s přirozenější prosodií * podporu 9 jazyků: angličtina, francouzština, španělština, němčina, italština, portugalština, nizozemština, arabština a hindština * 20 předpřipravených hlasů a možnost adaptace na nové hlasy * výstup v kvalitě 24 kHz * export do formátů ''WAV'', ''PCM'', ''FLAC'', ''MP3'', ''AAC'' a ''Opus'' * streaming i batch inference Model je vedený jako ''4B'' a je publikovaný s BF16 vahami. ===== Praktické parametry ===== V model card jsou uvedené tyto praktické informace: * doporučené nasazení přes ''vllm-omni'' * běh na jedné GPU s alespoň 16 GB paměti * zaměření na vysokou propustnost a realtime voice workflow Benchmark v model card je měřený na vstupu o délce 500 znaků a s 10sekundovou hlasovou referencí na jedné NVIDIA H200. ^ Konkurence ^ Latence ^ RTF ^ Propustnost (znaků za sekundu na GPU) ^ | 1 | 70 ms | 0.103 | 119.14 | | 16 | 331 ms | 0.237 | 879.11 | | 32 | 552 ms | 0.302 | 1430.78 | Poznámka: v model card je uvedeno, že tabulka převádí RTF do standardní konvence, kde nižší hodnota znamená lepší výsledek. ===== Minimalistické spuštění ===== Tady je nejjednodušší cesta pro rozběhnutí serveru podle model card: uv pip install -U vllm uv pip install vllm-omni --upgrade vllm serve mistralai/Voxtral-4B-TTS-2603 --omni Pokud je potřeba ověřit verzi knihovny ''mistral_common'', model card uvádí tento příkaz: python3 -c "import mistral_common; print(mistral_common.__version__)" Jednoduchý klient pro volání API může vypadat takto: import io import httpx import soundfile as sf BASE_URL = "http://:8000/v1" payload = { "input": "Paris is a beautiful city!", "model": "mistralai/Voxtral-4B-TTS-2603", "response_format": "wav", "voice": "casual_male", } response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0) response.raise_for_status() audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32") print(f"Got audio: {len(audio_array)} samples at {sr} Hz") ===== Kdy to dává smysl ===== Podle popisu modelu je Voxtral-4B-TTS-2603 zaměřený hlavně na: * voice agenty a call centra * zákaznickou podporu * realtime překlad * workflow, kde je důležitá nízká latence a průběžné streamování odpovědi ===== Co si pohlídat ===== Model je popsaný jako ''open-weights'', ne jako plně otevřený software v běžném smyslu. Podle model card dědí licenci ''CC BY-NC 4.0'' po použitých referenčních hlasech, takže je potřeba počítat s omezením na nekomerční použití. ===== Zdroje ===== * [[https://huggingface.co/mistralai/Voxtral-4B-TTS-2603|Voxtral-4B-TTS-2603 na Hugging Face]] * [[https://x.com/TheGeorgePu/status/2037930340975538184|Příspěvek na X]]