Bonsai от PrismML: 8 млрд параметров в 1 ГБ памяти
Стартап PrismML из Caltech представил Bonsai 8B — первую коммерчески жизнеспособную 1-битную языковую модель. 8 млрд параметров, 1,15 ГБ RAM, 44 tok/s на iPhone.

Последние годы прогресс в AI шёл по одному сценарию: хочешь умнее — делай больше. Больше параметров, больше GPU, больше электричества, больше денег. PrismML, стартап из Caltech, предлагает другой путь. 31 марта команда вышла из стелс-режима и представила Bonsai 8B — языковую модель с 8,2 млрд параметров, которая занимает 1,15 ГБ памяти и работает на iPhone со скоростью 44 токена в секунду.
Что такое «настоящий 1 бит»
Квантизация моделей — не новость. GPTQ, AWQ, GGUF — все эти форматы снижают точность весов до 4 или 8 бит. Но Bonsai идёт дальше: каждый вес хранится как один бит. Не «примерно 1 бит с оговорками», а буквально один бит по всей сети — эмбеддинги, слои внимания, MLP, голова языковой модели.
Каждый вес принимает значение 0 (= −scale) или 1 (= +scale), где scale — общий коэффициент на группу из 128 весов. Это даёт 12,8-кратное сжатие по сравнению с FP16, при этом модель сохраняет связность и способность рассуждать.
«Мы потратили годы на разработку математической теории, позволяющей сжимать нейросеть без потери способности к рассуждению», — сказал CEO PrismML Бабак Хассиби.
Бенчмарки: неожиданно близко к полноразмерным моделям
Средний балл Bonsai 8B по шести стандартным бенчмаркам — 70,5. Для сравнения:
| Модель | Средний балл | Размер |
|---|---|---|
| Bonsai 8B (1-bit) | 70,5 | 1,15 ГБ |
| Llama 3.1 8B (FP16) | 67,1 | ~16 ГБ |
| Ministral 8B (FP16) | 71,0 | ~16 ГБ |
| Qwen 3 8B (FP16) | 72,3 | ~16 ГБ |
Модель в 14 раз меньше конкурентов, но держится на расстоянии 1–2 баллов от лучших в классе. Это не «дешёвый компромисс для слабых устройств» — это реально конкурентный результат.
Скорость и железо
На Apple Silicon результаты впечатляют:
- M4 Pro: 8,4x быстрее FP16-версии того же размера
- iPhone 17 Pro Max: 44 tok/s — достаточно для комфортного диалога
- Mac с 8 ГБ RAM: работает без проблем, остаётся запас на ОС и приложения
Модель доступна в двух форматах: MLX для Apple Silicon (нативные 1-битные ядра без развёртки в FP16) и GGUF для llama.cpp (CUDA + Metal). Лицензия — Apache 2.0.
Почему это меняет правила игры
До Bonsai 1-битная квантизация была академическим экспериментом. Microsoft BitNet показал теоретическую возможность, но готовой модели для продакшна не было. PrismML первые довели идею до рабочего продукта с конкурентными бенчмарками.
Практические последствия выходят за рамки «ещё одна маленькая модель». Если 8 млрд параметров умещаются в 1 ГБ, то модели с 70 млрд параметров теоретически могут занять 10 ГБ — это уровень современного смартфона или ноутбука. PrismML уже намекает на планы по масштабированию технологии.
Forbes отмечает парадоксальный эффект: сжатие моделей не убивает спрос на серверную инфраструктуру, а увеличивает его. Когда каждый телефон становится AI-эндпоинтом, растёт число запросов к облаку — обновления, файн-тюнинг, эскалация сложных задач на большие модели.
Что дальше
PrismML — стартап, который только вышел из стелс-режима. Пока доступна одна модель на 8B параметров. Вопросы остаются: как 1-битные модели справятся с длинным контекстом, мультимодальностью, тонким следованием инструкциям. Но сам факт, что полноценная LLM работает на iPhone из 1 ГБ памяти, задаёт новую планку для индустрии.
Для тех, кто строит приложения на edge-устройствах, Bonsai уже сейчас стоит попробовать. Google Colab позволяет запустить модель в браузере без настройки.


