GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
qwenttsголосalibabaopen-source

Qwen открыла полный набор TTS-моделей с поддержкой русского

Alibaba выпустила Qwen3-TTS — семейство открытых голосовых моделей для синтеза речи, клонирования голоса и генерации по описанию.

Влад МакаровВлад Макаровпроверил и опубликовал
5 мин чтения
Qwen открыла полный набор TTS-моделей с поддержкой русского

Alibaba наконец выпустила то, чего ждало open-source сообщество: полноценный набор TTS-моделей под лицензией Apache 2.0. Qwen3-TTS — это не просто синтез речи, а целая экосистема для работы с голосом: клонирование за три секунды, создание новых тембров по текстовому описанию, мультиязычная генерация с поддержкой русского языка.

Что внутри релиза

Команда открыла пять моделей разного размера и назначения. Base-модели (0.6B и 1.7B параметров) справляются с базовым синтезом и клонированием голоса — достаточно трёхсекундного образца, чтобы модель подхватила тембр. CustomVoice добавляет к этому контроль стиля через текстовые инструкции и девять готовых пресетов: от молодой китаянки до пожилого британца.

Самое интересное — VoiceDesign на 1.7B параметров. Эта модель генерирует новые голоса из текстовых описаний. Напишите «мужчина лет сорока, слегка хриплый голос, говорит медленно и уверенно» — и получите соответствующий тембр. Никаких образцов аудио не нужно.

Поддерживаемые языки:

  • Китайский, английский, японский, корейский
  • Немецкий, французский, испанский, итальянский, португальский
  • Русский

Архитектура и скорость

Qwen3-TTS построена на 12Hz токенизаторе — 16 кодбуков, 12.5 кадров в секунду. Это позволяет сжимать речь эффективнее большинства конкурентов при сохранении качества. На LibriSpeech test-clean модель показывает PESQ 3.21 (wideband), STOI 0.96 и UTMOS 4.16.

МетрикаQwen3-TTSSpeechTokenizerMimi
PESQ (wideband)3.212.542.89
STOI0.960.910.93
Speaker Similarity0.950.820.87

Dual-Track архитектура обеспечивает стриминг с задержкой первого пакета около 97 мс для модели 0.6B и 101 мс для 1.7B. Каждый пакет несёт 320 мс аудио — достаточно для голосовых ассистентов в реальном времени.

Бенчмарки

На Seed-TTS модель достигает WER 0.77 для китайского и 1.24 для английского — это лучший результат среди открытых моделей в zero-shot клонировании. В мультиязычных тестах Qwen3-TTS показала наименьший WER в шести языках из десяти и лучшую схожесть с оригинальным голосом во всех десяти.

Кросс-лингвальное клонирование тоже впечатляет: ошибка при переходе с китайского на корейский упала с 14.4 (CosyVoice3) до 4.82 — снижение на 66%.

Как попробовать

Модели доступны на Hugging Face, есть демо-пространство для тестирования. Для локального запуска:

from qwen_tts import Qwen3TTS

model = Qwen3TTS.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-Base")

# Клонирование голоса
audio = model.clone_voice(
    reference_audio="sample.wav",
    text="Привет, это клонированный голос"
)

# Создание голоса по описанию (VoiceDesign)
voice = model.design_voice(
    "Молодая женщина, энергичный голос, русский акцент"
)

Для кого это

Open-source TTS такого уровня меняет расклад сил. Раньше качественный синтез с клонированием был только у платных API — Eleven Labs, MiniMax, SeedTTS. Теперь разработчики могут запускать сопоставимые модели локально, без ограничений и подписок.

Поддержка русского языка из коробки — отдельный плюс для локализации приложений. Модель понимает контекст и адаптирует интонацию, а не просто озвучивает текст посимвольно.

Главный недостаток — размер. Даже 0.6B модель требует приличных ресурсов для инференса в реальном времени. Для мобильных устройств придётся ждать дистилляцию или квантование от сообщества.

Похожие новости

Листайте вниз

для загрузки следующей статьи