Qwen открыла полный набор TTS-моделей с поддержкой русского
Alibaba выпустила Qwen3-TTS — семейство открытых голосовых моделей для синтеза речи, клонирования голоса и генерации по описанию.

Alibaba наконец выпустила то, чего ждало open-source сообщество: полноценный набор TTS-моделей под лицензией Apache 2.0. Qwen3-TTS — это не просто синтез речи, а целая экосистема для работы с голосом: клонирование за три секунды, создание новых тембров по текстовому описанию, мультиязычная генерация с поддержкой русского языка.
Что внутри релиза
Команда открыла пять моделей разного размера и назначения. Base-модели (0.6B и 1.7B параметров) справляются с базовым синтезом и клонированием голоса — достаточно трёхсекундного образца, чтобы модель подхватила тембр. CustomVoice добавляет к этому контроль стиля через текстовые инструкции и девять готовых пресетов: от молодой китаянки до пожилого британца.
Самое интересное — VoiceDesign на 1.7B параметров. Эта модель генерирует новые голоса из текстовых описаний. Напишите «мужчина лет сорока, слегка хриплый голос, говорит медленно и уверенно» — и получите соответствующий тембр. Никаких образцов аудио не нужно.
Поддерживаемые языки:
- Китайский, английский, японский, корейский
- Немецкий, французский, испанский, итальянский, португальский
- Русский
Архитектура и скорость
Qwen3-TTS построена на 12Hz токенизаторе — 16 кодбуков, 12.5 кадров в секунду. Это позволяет сжимать речь эффективнее большинства конкурентов при сохранении качества. На LibriSpeech test-clean модель показывает PESQ 3.21 (wideband), STOI 0.96 и UTMOS 4.16.
| Метрика | Qwen3-TTS | SpeechTokenizer | Mimi |
|---|---|---|---|
| PESQ (wideband) | 3.21 | 2.54 | 2.89 |
| STOI | 0.96 | 0.91 | 0.93 |
| Speaker Similarity | 0.95 | 0.82 | 0.87 |
Dual-Track архитектура обеспечивает стриминг с задержкой первого пакета около 97 мс для модели 0.6B и 101 мс для 1.7B. Каждый пакет несёт 320 мс аудио — достаточно для голосовых ассистентов в реальном времени.
Бенчмарки
На Seed-TTS модель достигает WER 0.77 для китайского и 1.24 для английского — это лучший результат среди открытых моделей в zero-shot клонировании. В мультиязычных тестах Qwen3-TTS показала наименьший WER в шести языках из десяти и лучшую схожесть с оригинальным голосом во всех десяти.
Кросс-лингвальное клонирование тоже впечатляет: ошибка при переходе с китайского на корейский упала с 14.4 (CosyVoice3) до 4.82 — снижение на 66%.
Как попробовать
Модели доступны на Hugging Face, есть демо-пространство для тестирования. Для локального запуска:
from qwen_tts import Qwen3TTS
model = Qwen3TTS.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-Base")
# Клонирование голоса
audio = model.clone_voice(
reference_audio="sample.wav",
text="Привет, это клонированный голос"
)
# Создание голоса по описанию (VoiceDesign)
voice = model.design_voice(
"Молодая женщина, энергичный голос, русский акцент"
)
Для кого это
Open-source TTS такого уровня меняет расклад сил. Раньше качественный синтез с клонированием был только у платных API — Eleven Labs, MiniMax, SeedTTS. Теперь разработчики могут запускать сопоставимые модели локально, без ограничений и подписок.
Поддержка русского языка из коробки — отдельный плюс для локализации приложений. Модель понимает контекст и адаптирует интонацию, а не просто озвучивает текст посимвольно.
Главный недостаток — размер. Даже 0.6B модель требует приличных ресурсов для инференса в реальном времени. Для мобильных устройств придётся ждать дистилляцию или квантование от сообщества.


