Kitten TTS V0.8: SOTA синтез речи в модели меньше 25 МБ

Open-source TTS-модель с 15 миллионами параметров работает на Raspberry Pi, в браузере через WebAssembly и на смартфонах. Разбираем технологию, голоса и сценарии применения.

Влад Макаровпроверил и опубликовал

21 февраля 2026 г.

5 мин чтения

Kitten TTS V0.8: SOTA синтез речи в модели меньше 25 МБ

15 миллионов параметров. Меньше 25 мегабайт. Работает на Raspberry Pi, в браузере и на дешёвом смартфоне. KittenML выпустила версию 0.8 своей TTS-модели — и сообщество LocalLLaMA взорвалось: 820+ голосов и сотни комментариев за два дня.

Почему это важно

Качественный синтез речи до сих пор требовал серьёзных ресурсов. Bark от Suno — сотни мегабайт и GPU. XTTS от Coqui — гигабайты весов. Даже «лёгкие» модели вроде Piper нуждались в специфическом железе для приемлемого качества.

Kitten TTS ломает этот паттерн. Модель с 15M параметров выдаёт реалистичный голос, используя только CPU. Нет GPU — нет проблем. Вся магия в квантизации int8 + fp16 и ONNX-рантайме, который работает буквально везде.

Три варианта модели

KittenML выпустила линейку из трёх моделей:

Модель	Размер	Качество	Сценарий
kitten-tts-mini	~15 МБ	Хорошее	IoT, wearables
kitten-tts-base	~20 МБ	Отличное	Смартфоны, Pi
kitten-tts-nano-int8	~8 МБ	Приемлемое	Браузер, WebAssembly

Все три — open-source с лицензией, позволяющей коммерческое использование.

8 голосов из коробки

Версия 0.8 поддерживает английский с восемью встроенными голосами — четыре мужских (Jasper, Bruno, Hugo, Leo) и четыре женских (Bella, Luna, Rosie, Kiki). Установка занимает одну строку:

pip install kittentts
from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = m.generate("Hello from the edge", voice='Luna')

Сообщество уже создало серверную обёртку Kitten-TTS-Server с Web UI, поддержкой длинных текстов для аудиокниг и GPU-ускорением.

WebAssembly — TTS в браузере

Ключевое нововведение V0.8 — компиляция в WebAssembly. Это значит, что синтез речи теперь работает прямо во вкладке браузера без серверной части. Для разработчиков это открывает принципиально новые сценарии:

Офлайн-приложения — голосовой интерфейс без интернета
Приватность — данные не покидают устройство
Стоимость — ноль серверных расходов на TTS

На Hacker News разработчики уже обсуждают интеграцию с локальными LLM: запрос к Llama → ответ → озвучка через Kitten TTS — полностью на устройстве пользователя.

Качество vs размер

Главный вопрос — насколько хорош голос в 15 МБ? По отзывам на Reddit и HN, Kitten TTS удивляет: голоса звучат натурально, с правильной интонацией и паузами. Не уровень ElevenLabs, но для edge-устройств — прорыв.

Основные ограничения текущей версии:

Только английский язык
8 фиксированных голосов (нет клонирования)
Некоторые пользователи сообщают о проблемах с nano-int8 вариантом

Что дальше

KittenML обещает многоязычную поддержку и голосовое клонирование в следующих релизах. Но уже сейчас V0.8 — это proof of concept того, что качественный AI может и должен работать на краю сети, без облака и без GPU.

Для разработчиков, строящих голосовых ассистентов, accessibility-инструменты или IoT-устройства — это один из тех проектов, за которым стоит следить.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Kitten TTS V0.8: SOTA синтез речи в модели меньше 25 МБ

Почему это важно

Три варианта модели

8 голосов из коробки

WebAssembly — TTS в браузере

Качество vs размер

Что дальше

Похожие новости

Perplexity Model Council и Comet: мульти-модельный поиск и AI-браузер для iPhone

Unsloth Studio: open-source альтернатива LM Studio с обучением моделей

Voxtral TTS: Mistral выпустила open-source голосовую модель, обошедшую ElevenLabs