GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
prismmlbonsai1-bitквантизацияedge-aiлокальные-модели

Bonsai от PrismML: 8 млрд параметров в 1 ГБ памяти

Стартап PrismML из Caltech представил Bonsai 8B — первую коммерчески жизнеспособную 1-битную языковую модель. 8 млрд параметров, 1,15 ГБ RAM, 44 tok/s на iPhone.

Влад МакаровВлад Макаровпроверил и опубликовал
7 мин чтения
Bonsai от PrismML: 8 млрд параметров в 1 ГБ памяти

Последние годы прогресс в AI шёл по одному сценарию: хочешь умнее — делай больше. Больше параметров, больше GPU, больше электричества, больше денег. PrismML, стартап из Caltech, предлагает другой путь. 31 марта команда вышла из стелс-режима и представила Bonsai 8B — языковую модель с 8,2 млрд параметров, которая занимает 1,15 ГБ памяти и работает на iPhone со скоростью 44 токена в секунду.

Что такое «настоящий 1 бит»

Квантизация моделей — не новость. GPTQ, AWQ, GGUF — все эти форматы снижают точность весов до 4 или 8 бит. Но Bonsai идёт дальше: каждый вес хранится как один бит. Не «примерно 1 бит с оговорками», а буквально один бит по всей сети — эмбеддинги, слои внимания, MLP, голова языковой модели.

Каждый вес принимает значение 0 (= −scale) или 1 (= +scale), где scale — общий коэффициент на группу из 128 весов. Это даёт 12,8-кратное сжатие по сравнению с FP16, при этом модель сохраняет связность и способность рассуждать.

«Мы потратили годы на разработку математической теории, позволяющей сжимать нейросеть без потери способности к рассуждению», — сказал CEO PrismML Бабак Хассиби.

Бенчмарки: неожиданно близко к полноразмерным моделям

Средний балл Bonsai 8B по шести стандартным бенчмаркам — 70,5. Для сравнения:

МодельСредний баллРазмер
Bonsai 8B (1-bit)70,51,15 ГБ
Llama 3.1 8B (FP16)67,1~16 ГБ
Ministral 8B (FP16)71,0~16 ГБ
Qwen 3 8B (FP16)72,3~16 ГБ

Модель в 14 раз меньше конкурентов, но держится на расстоянии 1–2 баллов от лучших в классе. Это не «дешёвый компромисс для слабых устройств» — это реально конкурентный результат.

Скорость и железо

На Apple Silicon результаты впечатляют:

  • M4 Pro: 8,4x быстрее FP16-версии того же размера
  • iPhone 17 Pro Max: 44 tok/s — достаточно для комфортного диалога
  • Mac с 8 ГБ RAM: работает без проблем, остаётся запас на ОС и приложения

Модель доступна в двух форматах: MLX для Apple Silicon (нативные 1-битные ядра без развёртки в FP16) и GGUF для llama.cpp (CUDA + Metal). Лицензия — Apache 2.0.

Почему это меняет правила игры

До Bonsai 1-битная квантизация была академическим экспериментом. Microsoft BitNet показал теоретическую возможность, но готовой модели для продакшна не было. PrismML первые довели идею до рабочего продукта с конкурентными бенчмарками.

Практические последствия выходят за рамки «ещё одна маленькая модель». Если 8 млрд параметров умещаются в 1 ГБ, то модели с 70 млрд параметров теоретически могут занять 10 ГБ — это уровень современного смартфона или ноутбука. PrismML уже намекает на планы по масштабированию технологии.

Forbes отмечает парадоксальный эффект: сжатие моделей не убивает спрос на серверную инфраструктуру, а увеличивает его. Когда каждый телефон становится AI-эндпоинтом, растёт число запросов к облаку — обновления, файн-тюнинг, эскалация сложных задач на большие модели.

Что дальше

PrismML — стартап, который только вышел из стелс-режима. Пока доступна одна модель на 8B параметров. Вопросы остаются: как 1-битные модели справятся с длинным контекстом, мультимодальностью, тонким следованием инструкциям. Но сам факт, что полноценная LLM работает на iPhone из 1 ГБ памяти, задаёт новую планку для индустрии.

Для тех, кто строит приложения на edge-устройствах, Bonsai уже сейчас стоит попробовать. Google Colab позволяет запустить модель в браузере без настройки.

Похожие новости

Листайте вниз

для загрузки следующей статьи