Qwen открыла полный набор TTS-моделей с поддержкой русского

Alibaba выпустила Qwen3-TTS — семейство открытых голосовых моделей для синтеза речи, клонирования голоса и генерации по описанию.

Влад Макаровпроверил и опубликовал

24 января 2026 г.

5 мин чтения

Qwen открыла полный набор TTS-моделей с поддержкой русского

Alibaba наконец выпустила то, чего ждало open-source сообщество: полноценный набор TTS-моделей под лицензией Apache 2.0. Qwen3-TTS — это не просто синтез речи, а целая экосистема для работы с голосом: клонирование за три секунды, создание новых тембров по текстовому описанию, мультиязычная генерация с поддержкой русского языка.

Что внутри релиза

Команда открыла пять моделей разного размера и назначения. Base-модели (0.6B и 1.7B параметров) справляются с базовым синтезом и клонированием голоса — достаточно трёхсекундного образца, чтобы модель подхватила тембр. CustomVoice добавляет к этому контроль стиля через текстовые инструкции и девять готовых пресетов: от молодой китаянки до пожилого британца.

Самое интересное — VoiceDesign на 1.7B параметров. Эта модель генерирует новые голоса из текстовых описаний. Напишите «мужчина лет сорока, слегка хриплый голос, говорит медленно и уверенно» — и получите соответствующий тембр. Никаких образцов аудио не нужно.

Поддерживаемые языки:

Китайский, английский, японский, корейский
Немецкий, французский, испанский, итальянский, португальский
Русский

Архитектура и скорость

Qwen3-TTS построена на 12Hz токенизаторе — 16 кодбуков, 12.5 кадров в секунду. Это позволяет сжимать речь эффективнее большинства конкурентов при сохранении качества. На LibriSpeech test-clean модель показывает PESQ 3.21 (wideband), STOI 0.96 и UTMOS 4.16.

Метрика	Qwen3-TTS	SpeechTokenizer	Mimi
PESQ (wideband)	3.21	2.54	2.89
STOI	0.96	0.91	0.93
Speaker Similarity	0.95	0.82	0.87

Dual-Track архитектура обеспечивает стриминг с задержкой первого пакета около 97 мс для модели 0.6B и 101 мс для 1.7B. Каждый пакет несёт 320 мс аудио — достаточно для голосовых ассистентов в реальном времени.

Бенчмарки

На Seed-TTS модель достигает WER 0.77 для китайского и 1.24 для английского — это лучший результат среди открытых моделей в zero-shot клонировании. В мультиязычных тестах Qwen3-TTS показала наименьший WER в шести языках из десяти и лучшую схожесть с оригинальным голосом во всех десяти.

Кросс-лингвальное клонирование тоже впечатляет: ошибка при переходе с китайского на корейский упала с 14.4 (CosyVoice3) до 4.82 — снижение на 66%.

Как попробовать

Модели доступны на Hugging Face, есть демо-пространство для тестирования. Для локального запуска:

from qwen_tts import Qwen3TTS

model = Qwen3TTS.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-Base")

# Клонирование голоса
audio = model.clone_voice(
    reference_audio="sample.wav",
    text="Привет, это клонированный голос"
)

# Создание голоса по описанию (VoiceDesign)
voice = model.design_voice(
    "Молодая женщина, энергичный голос, русский акцент"
)

Для кого это

Open-source TTS такого уровня меняет расклад сил. Раньше качественный синтез с клонированием был только у платных API — Eleven Labs, MiniMax, SeedTTS. Теперь разработчики могут запускать сопоставимые модели локально, без ограничений и подписок.

Поддержка русского языка из коробки — отдельный плюс для локализации приложений. Модель понимает контекст и адаптирует интонацию, а не просто озвучивает текст посимвольно.

Главный недостаток — размер. Даже 0.6B модель требует приличных ресурсов для инференса в реальном времени. Для мобильных устройств придётся ждать дистилляцию или квантование от сообщества.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Qwen открыла полный набор TTS-моделей с поддержкой русского

Что внутри релиза

Архитектура и скорость

Бенчмарки

Как попробовать

Для кого это

Похожие новости

Qwen 3.6 27B обошла собственную 397B модель на коде

Qwen 3.6-35B-A3B: 3 млрд активных параметров, 73.4% SWE-Bench и Apache 2.0

Qwen3.5 9B против GPT-OSS 120B: Alibaba выпустила маленькие модели для запуска на устройстве