GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
open-sourcettsedge-aispeechwebassembly

Kitten TTS V0.8: SOTA синтез речи в модели меньше 25 МБ

Open-source TTS-модель с 15 миллионами параметров работает на Raspberry Pi, в браузере через WebAssembly и на смартфонах. Разбираем технологию, голоса и сценарии применения.

Влад МакаровВлад Макаровпроверил и опубликовал
5 мин чтения
Kitten TTS V0.8: SOTA синтез речи в модели меньше 25 МБ

15 миллионов параметров. Меньше 25 мегабайт. Работает на Raspberry Pi, в браузере и на дешёвом смартфоне. KittenML выпустила версию 0.8 своей TTS-модели — и сообщество LocalLLaMA взорвалось: 820+ голосов и сотни комментариев за два дня.

Почему это важно

Качественный синтез речи до сих пор требовал серьёзных ресурсов. Bark от Suno — сотни мегабайт и GPU. XTTS от Coqui — гигабайты весов. Даже «лёгкие» модели вроде Piper нуждались в специфическом железе для приемлемого качества.

Kitten TTS ломает этот паттерн. Модель с 15M параметров выдаёт реалистичный голос, используя только CPU. Нет GPU — нет проблем. Вся магия в квантизации int8 + fp16 и ONNX-рантайме, который работает буквально везде.

Три варианта модели

KittenML выпустила линейку из трёх моделей:

МодельРазмерКачествоСценарий
kitten-tts-mini~15 МБХорошееIoT, wearables
kitten-tts-base~20 МБОтличноеСмартфоны, Pi
kitten-tts-nano-int8~8 МБПриемлемоеБраузер, WebAssembly

Все три — open-source с лицензией, позволяющей коммерческое использование.

8 голосов из коробки

Версия 0.8 поддерживает английский с восемью встроенными голосами — четыре мужских (Jasper, Bruno, Hugo, Leo) и четыре женских (Bella, Luna, Rosie, Kiki). Установка занимает одну строку:

pip install kittentts
from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = m.generate("Hello from the edge", voice='Luna')

Сообщество уже создало серверную обёртку Kitten-TTS-Server с Web UI, поддержкой длинных текстов для аудиокниг и GPU-ускорением.

WebAssembly — TTS в браузере

Ключевое нововведение V0.8 — компиляция в WebAssembly. Это значит, что синтез речи теперь работает прямо во вкладке браузера без серверной части. Для разработчиков это открывает принципиально новые сценарии:

  • Офлайн-приложения — голосовой интерфейс без интернета
  • Приватность — данные не покидают устройство
  • Стоимость — ноль серверных расходов на TTS

На Hacker News разработчики уже обсуждают интеграцию с локальными LLM: запрос к Llama → ответ → озвучка через Kitten TTS — полностью на устройстве пользователя.

Качество vs размер

Главный вопрос — насколько хорош голос в 15 МБ? По отзывам на Reddit и HN, Kitten TTS удивляет: голоса звучат натурально, с правильной интонацией и паузами. Не уровень ElevenLabs, но для edge-устройств — прорыв.

Основные ограничения текущей версии:

  • Только английский язык
  • 8 фиксированных голосов (нет клонирования)
  • Некоторые пользователи сообщают о проблемах с nano-int8 вариантом

Что дальше

KittenML обещает многоязычную поддержку и голосовое клонирование в следующих релизах. Но уже сейчас V0.8 — это proof of concept того, что качественный AI может и должен работать на краю сети, без облака и без GPU.

Для разработчиков, строящих голосовых ассистентов, accessibility-инструменты или IoT-устройства — это один из тех проектов, за которым стоит следить.

Похожие новости

Листайте вниз

для загрузки следующей статьи