Voxtral TTS: Mistral выпустила open-source голосовую модель, обошедшую ElevenLabs
Mistral представила Voxtral TTS — open-weights модель синтеза речи на 4B параметров. 9 языков, клонирование голоса из 3 секунд, латентность 70мс.

Рынок синтеза речи наконец получил серьёзного open-source претендента. 26 марта Mistral выпустила Voxtral TTS — модель для генерации речи, которая по результатам слепых оценок людьми обходит ElevenLabs Flash v2.5 по естественности звучания, при этом весит всего 4 миллиарда параметров и помещается на смартфон.
Что умеет Voxtral TTS
Модель поддерживает 9 языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский. Для клонирования голоса достаточно 3-секундного образца — Voxtral схватывает не только тембр, но и акцент, интонации, паузы и даже характерные «несовершенства» речи.
«Наши клиенты просили речевую модель. Мы построили компактную модель, которая может работать на умных часах, смартфоне, ноутбуке или других edge-устройствах. Стоимость — в разы ниже всего, что есть на рынке, при state-of-the-art качестве», — рассказал Пьер Сток, VP по научным операциям в Mistral, в интервью TechCrunch.
Отдельно стоит отметить кросс-лингвальную адаптацию. Модель может генерировать английскую речь с французским голосовым промптом — и результат звучит естественно, с сохранением акцента. Это открывает путь к речевым системам перевода в реальном времени.
Производительность
| Метрика | Значение |
|---|---|
| Параметры | 4B (3.4B decoder + 390M flow-matching + 300M кодек) |
| Языки | 9 |
| Латентность (TTFA) | 70мс (для 10с сэмпла, 500 символов) |
| Real-time Factor | ≈9.7x (10-секундный клип за ~1 секунду) |
| Макс. генерация | до 2 минут нативно, далее через interleaving |
| Минимальный voice prompt | 3 секунды |
Архитектурно Voxtral TTS строится на базе Ministral 3B — это transformer-based автоарегрессионная модель с flow-matching акустическим трансформером. Внутренний аудиокодек обрабатывает звук с частотой 12.5 Гц, используя семантические и акустические латентные представления.
Как попробовать
Voxtral TTS уже доступен тремя способами:
- API — $0.016 за 1000 символов через Mistral AI Studio
- Le Chat — встроен в чат-интерфейс Mistral
- Открытые веса — на HuggingFace под лицензией CC BY NC 4.0
Лицензия CC BY NC 4.0 позволяет свободно использовать модель в некоммерческих целях. Для коммерческого использования потребуется API или отдельное соглашение с Mistral.
Кого это затрагивает
Voxtral TTS замыкает речевой цикл Mistral. Ранее компания выпустила Voxtral Transcribe для распознавания речи — теперь у Mistral есть полный стек speech-to-speech, что делает её прямым конкурентом ElevenLabs, Deepgram и OpenAI в корпоративном сегменте.
Для индустрии голосовых агентов это важный сдвиг. Компактность модели и открытые веса означают, что энтерпрайз-клиенты могут запускать её на собственной инфраструктуре, дообучать под свои нужды и не зависеть от внешних API. Для бизнесов, которым важна приватность данных и контроль над голосовым стеком, это серьёзный аргумент.
Итог
Mistral продолжает стратегию «open-source, но enterprise-ready». Voxtral TTS — не просто демо, а production-grade модель с конкурентоспособной ценой и впечатляющими характеристиками. Рынок TTS, до сих пор контролировавшийся проприетарными решениями, получил первого реального open-weight конкурента на уровне frontier-моделей.


