Kitten TTS V0.8: SOTA синтез речи в модели меньше 25 МБ
Open-source TTS-модель с 15 миллионами параметров работает на Raspberry Pi, в браузере через WebAssembly и на смартфонах. Разбираем технологию, голоса и сценарии применения.

15 миллионов параметров. Меньше 25 мегабайт. Работает на Raspberry Pi, в браузере и на дешёвом смартфоне. KittenML выпустила версию 0.8 своей TTS-модели — и сообщество LocalLLaMA взорвалось: 820+ голосов и сотни комментариев за два дня.
Почему это важно
Качественный синтез речи до сих пор требовал серьёзных ресурсов. Bark от Suno — сотни мегабайт и GPU. XTTS от Coqui — гигабайты весов. Даже «лёгкие» модели вроде Piper нуждались в специфическом железе для приемлемого качества.
Kitten TTS ломает этот паттерн. Модель с 15M параметров выдаёт реалистичный голос, используя только CPU. Нет GPU — нет проблем. Вся магия в квантизации int8 + fp16 и ONNX-рантайме, который работает буквально везде.
Три варианта модели
KittenML выпустила линейку из трёх моделей:
| Модель | Размер | Качество | Сценарий |
|---|---|---|---|
| kitten-tts-mini | ~15 МБ | Хорошее | IoT, wearables |
| kitten-tts-base | ~20 МБ | Отличное | Смартфоны, Pi |
| kitten-tts-nano-int8 | ~8 МБ | Приемлемое | Браузер, WebAssembly |
Все три — open-source с лицензией, позволяющей коммерческое использование.
8 голосов из коробки
Версия 0.8 поддерживает английский с восемью встроенными голосами — четыре мужских (Jasper, Bruno, Hugo, Leo) и четыре женских (Bella, Luna, Rosie, Kiki). Установка занимает одну строку:
pip install kittentts
from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = m.generate("Hello from the edge", voice='Luna')
Сообщество уже создало серверную обёртку Kitten-TTS-Server с Web UI, поддержкой длинных текстов для аудиокниг и GPU-ускорением.
WebAssembly — TTS в браузере
Ключевое нововведение V0.8 — компиляция в WebAssembly. Это значит, что синтез речи теперь работает прямо во вкладке браузера без серверной части. Для разработчиков это открывает принципиально новые сценарии:
- Офлайн-приложения — голосовой интерфейс без интернета
- Приватность — данные не покидают устройство
- Стоимость — ноль серверных расходов на TTS
На Hacker News разработчики уже обсуждают интеграцию с локальными LLM: запрос к Llama → ответ → озвучка через Kitten TTS — полностью на устройстве пользователя.
Качество vs размер
Главный вопрос — насколько хорош голос в 15 МБ? По отзывам на Reddit и HN, Kitten TTS удивляет: голоса звучат натурально, с правильной интонацией и паузами. Не уровень ElevenLabs, но для edge-устройств — прорыв.
Основные ограничения текущей версии:
- Только английский язык
- 8 фиксированных голосов (нет клонирования)
- Некоторые пользователи сообщают о проблемах с nano-int8 вариантом
Что дальше
KittenML обещает многоязычную поддержку и голосовое клонирование в следующих релизах. Но уже сейчас V0.8 — это proof of concept того, что качественный AI может и должен работать на краю сети, без облака и без GPU.
Для разработчиков, строящих голосовых ассистентов, accessibility-инструменты или IoT-устройства — это один из тех проектов, за которым стоит следить.


