Voxtral TTS: Mistral выпустила open-source голосовую модель, обошедшую ElevenLabs

Mistral представила Voxtral TTS — open-weights модель синтеза речи на 4B параметров. 9 языков, клонирование голоса из 3 секунд, латентность 70мс.

Влад Макаровпроверил и опубликовал

28 марта 2026 г.

6 мин чтения

Voxtral TTS: Mistral выпустила open-source голосовую модель, обошедшую ElevenLabs

Рынок синтеза речи наконец получил серьёзного open-source претендента. 26 марта Mistral выпустила Voxtral TTS — модель для генерации речи, которая по результатам слепых оценок людьми обходит ElevenLabs Flash v2.5 по естественности звучания, при этом весит всего 4 миллиарда параметров и помещается на смартфон.

Что умеет Voxtral TTS

Модель поддерживает 9 языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский. Для клонирования голоса достаточно 3-секундного образца — Voxtral схватывает не только тембр, но и акцент, интонации, паузы и даже характерные «несовершенства» речи.

«Наши клиенты просили речевую модель. Мы построили компактную модель, которая может работать на умных часах, смартфоне, ноутбуке или других edge-устройствах. Стоимость — в разы ниже всего, что есть на рынке, при state-of-the-art качестве», — рассказал Пьер Сток, VP по научным операциям в Mistral, в интервью TechCrunch.

Отдельно стоит отметить кросс-лингвальную адаптацию. Модель может генерировать английскую речь с французским голосовым промптом — и результат звучит естественно, с сохранением акцента. Это открывает путь к речевым системам перевода в реальном времени.

Производительность

Метрика	Значение
Параметры	4B (3.4B decoder + 390M flow-matching + 300M кодек)
Языки	9
Латентность (TTFA)	70мс (для 10с сэмпла, 500 символов)
Real-time Factor	≈9.7x (10-секундный клип за ~1 секунду)
Макс. генерация	до 2 минут нативно, далее через interleaving
Минимальный voice prompt	3 секунды

Архитектурно Voxtral TTS строится на базе Ministral 3B — это transformer-based автоарегрессионная модель с flow-matching акустическим трансформером. Внутренний аудиокодек обрабатывает звук с частотой 12.5 Гц, используя семантические и акустические латентные представления.

Как попробовать

Voxtral TTS уже доступен тремя способами:

API — $0.016 за 1000 символов через Mistral AI Studio
Le Chat — встроен в чат-интерфейс Mistral
Открытые веса — на HuggingFace под лицензией CC BY NC 4.0

Лицензия CC BY NC 4.0 позволяет свободно использовать модель в некоммерческих целях. Для коммерческого использования потребуется API или отдельное соглашение с Mistral.

Кого это затрагивает

Voxtral TTS замыкает речевой цикл Mistral. Ранее компания выпустила Voxtral Transcribe для распознавания речи — теперь у Mistral есть полный стек speech-to-speech, что делает её прямым конкурентом ElevenLabs, Deepgram и OpenAI в корпоративном сегменте.

Для индустрии голосовых агентов это важный сдвиг. Компактность модели и открытые веса означают, что энтерпрайз-клиенты могут запускать её на собственной инфраструктуре, дообучать под свои нужды и не зависеть от внешних API. Для бизнесов, которым важна приватность данных и контроль над голосовым стеком, это серьёзный аргумент.

Итог

Mistral продолжает стратегию «open-source, но enterprise-ready». Voxtral TTS — не просто демо, а production-grade модель с конкурентоспособной ценой и впечатляющими характеристиками. Рынок TTS, до сих пор контролировавшийся проприетарными решениями, получил первого реального open-weight конкурента на уровне frontier-моделей.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Voxtral TTS: Mistral выпустила open-source голосовую модель, обошедшую ElevenLabs

Что умеет Voxtral TTS

Производительность

Как попробовать

Кого это затрагивает

Итог

Похожие новости

Mistral заговорила: Voxtral TTS на 4 млрд параметров

Одна модель вместо трёх: Mistral Small 4 объединяет рассуждения, код и мультимодальность

Mistral Workflows: оркестрация AI на движке от Netflix и Stripe