Mistral заговорила: Voxtral TTS на 4 млрд параметров

Mistral AI выпустила Voxtral TTS — первую модель синтеза речи с открытыми весами, 9 языками и клонированием голоса за 5 секунд.

Влад Макаровпроверил и опубликовал

3 апреля 2026 г.

6 мин чтения

Mistral заговорила: Voxtral TTS на 4 млрд параметров

До марта 2026 года у Mistral была половина голосового пайплайна. Voxtral Transcribe умел превращать речь в текст, но обратный путь — от текста к голосу — приходилось строить на сторонних решениях: ElevenLabs, OpenAI TTS-1 или Google Neural2. Voxtral TTS закрывает этот пробел, и делает это с амбициозной заявкой — open-weights модель уровня фронтира.

Что умеет Voxtral TTS

Модель весит 4,1 миллиарда параметров — немного по меркам LLM, но для text-to-speech это серьёзный размер. Базовые веса в формате BF16 занимают около 8 ГБ, так что для self-hosting нужна GPU с достаточным объёмом памяти.

Главная фишка — не просто чтение текста вслух, а интерпретация. Voxtral понимает контекст и эмоциональную окраску: нейтральный тон для новостей, взволнованный для приветствия, саркастический для ироничных фраз. Это принципиально отличает модель от классических TTS-систем, которые просто конвертируют фонемы в звук.

Клонирование голоса работает с минимальным референсом — достаточно аудиозаписи от 5 до 25 секунд, хотя модель принимает клипы от 3 секунд. При этом она захватывает не только тембр, но и манеру речи: паузы, ритм, интонацию. 20 предустановленных голосов доступны из коробки.

Технические характеристики:

Параметры: 4,1 млрд (BF16, ~8 ГБ)
Языки: 9 (английский, французский, немецкий, испанский, нидерландский, португальский, итальянский, хинди, арабский)
Клонирование голоса: 5-25 секунд референса
Латентность: низкая задержка до первого звука
Лицензия: открытые веса на Hugging Face
API: $0,016 за 1 000 символов

Где это пригодится

Очевидный сценарий — голосовые AI-агенты. Когда чат-бот должен не просто ответить текстом, а позвонить клиенту или провести голосовую консультацию, нужен синтез речи, который не звучит как робот из 2015 года. Mistral целит именно сюда: enterprise-клиенты, которым нужна надёжная и недорогая озвучка в продакшене.

Второй сценарий — мультиязычные приложения. Девять языков покрывают большую часть европейского и южноазиатского рынка. Для компании из Парижа, работающей с клиентами от Мадрида до Дели, это особенно логичный набор.

Для разработчиков, которые уже используют Mistral API для языковых моделей, Voxtral TTS — естественное дополнение. Один провайдер для текста и голоса упрощает архитектуру и снижает операционные расходы.

Как попробовать

Самый быстрый способ — Mistral Studio. Там можно протестировать все 20 голосов и попробовать клонирование. Для продакшена доступен REST API: отправляете текст и получаете аудио.

Self-hosting тоже вариант — веса лежат на Hugging Face. Для запуска потребуется GPU с минимум 16 ГБ VRAM (или 8 ГБ с квантизацией). Это делает Voxtral доступным для компаний, которые не хотят отправлять аудио во внешние API по соображениям приватности.

Контекст рынка

Voxtral TTS появляется в момент, когда рынок синтеза речи переживает бум. ElevenLabs недавно привлёк $180 млн, OpenAI обновил свои TTS-модели, а Google продолжает развивать WaveNet. Но ни один из конкурентов не предлагает open-weights модель такого уровня. Для Mistral это шанс занять нишу, которую крупные игроки предпочитают держать закрытой — и стратегия, которая уже сработала с их языковыми моделями.