1-битный Bonsai 1.7B весит 290 МБ и запускается прямо в браузере

PrismML выложил Bonsai 1.7B — 1-битную модель в 290 МБ, которая работает в Chrome через WebGPU без сервера и без установки. Реддит обсуждает, насколько это реально полезно.

Открыть страницу. Подождать тридцать секунд, пока подгрузится 290 мегабайт. Получить языковую модель на 1,7 миллиарда параметров, которая отвечает на ваши вопросы — целиком на вашем GPU, без сервера, без подписки и без отправки данных куда-либо вовне. Так выглядит демо PrismML Bonsai 1.7B, которое 14 апреля 2026 года влетело в топ r/LocalLLaMA с тысячей с лишним апвоутов и 162 комментариями.

Это не первая попытка ужать LLM до размеров, при которых она помещается на телефон или в браузерную вкладку. Но это первая, где сошлось всё сразу: 1-битная квантизация даёт радикальный размер, TurboQuant от Google поверх неё держит точность, а WebGPU в Chrome и Safari Tech Preview позволяет запустить инференс на видеокарте через стандартный JavaScript.

Что внутри

Bonsai — линейка моделей от стартапа PrismML, которая включает три размера: 1.7B, 4B и 8B. Все они выходят сразу в нескольких форматах: full precision, GGUF для llama.cpp и 1-битная версия + TurboQuant — самое интересное. Именно 1.7B с TurboQuant сжимается до 290 МБ.

Архитектурно это обычный декодер-only трансформер, обученный с расчётом на агрессивную квантизацию. Каждый вес компрессируется до одного бита (значения +1 или −1), а информация о масштабе и поправках хранится отдельно через TurboQuant — двухстадийный алгоритм Google, который сейчас идёт на ICLR 2026. Без TurboQuant 1-битные модели исторически теряют 5–15% точности; с ним — теряют единицы процентов.

WebGPU делает остальное. Это API, появившийся в Chrome год с лишним назад, даёт JavaScript прямой доступ к GPU через стандартизированную обёртку поверх Vulkan, Metal и Direct3D. Демо бьётся через transformers.js — портированную в браузер библиотеку Hugging Face, которая знает, как переложить inference на WebGPU shaders.

Ключевые числа:

Параметров: 1,7 млрд
Размер на диске: 290 МБ
Квантизация: 1 бит + TurboQuant
Бэкенд: WebGPU через transformers.js
Контекст: ~4096 токенов
Скорость на ноутбучной GPU: 20–40 токенов/сек
Лицензия: открытые веса (детали — на HuggingFace)
Официальная демо-страница: webml-community/bonsai-webgpu

Параллельно открыт форк llama.cpp с поддержкой 1-битных Bonsai. На AMD RX 6700 XT он показывает 2152 токена/сек на префилле и 209 на генерации для 1.7B — для 4B 867/122, для 8B уже значительно медленнее.

Что говорят те, кто потрогал

Реддит-тред, как водится, разделился. Часть пользователей в восторге: «работает, реально работает, моя жена не верит, что это локально», «открыл на iPad Pro — отвечает осмысленно», «пишет код на Python, не идеально, но не хуже Phi-3-mini». Другая часть — скептики. Главный тезис критиков: «я тестировал 8B Bonsai, и она средняя; представьте, насколько хуже 1.7B».

И они частично правы. Для серьёзных задач — длинных кодов, многошаговых рассуждений, фактологии — 1.7B в любой квантизации остаётся ребёнком. Bonsai 1.7B уверенно проигрывает Llama-3.2-3B и Qwen-3-4B на стандартных бенчмарках вроде MMLU. Это вопрос калибровки ожиданий: модель, которая занимает 290 МБ, не должна сравниваться с Claude.

Но если правильно выбрать задачу, всё меняется. Резюме абзаца, перевод, классификация интента, простой code completion, голосовой ассистент с заранее заданным сценарием — Bonsai 1.7B справляется и делает это локально. Без аккаунта, без API-ключа, без сетевого запроса. Для офлайн-приложений и приватных сценариев это совсем другая лига возможностей.

Что это меняет в продуктовой логике

До сих пор любой разработчик, который хотел встроить LLM в свой веб-продукт, оказывался перед выбором: либо платить за API (OpenAI, Anthropic, Mistral), либо разворачивать собственный inference на сервере. И то, и другое — ограничивает приватность, привязывает к сети и стоит денег пропорционально DAU.

Bonsai вместе с WebGPU открывает третий путь. Модель выкачивается один раз, кешируется в браузере, и дальше работает локально. На входе нет per-token-цены, нет квот, нет VPN-блокировок. Для приложений вроде «PDF-summarizer на одной странице», «чат-бот в виде статичного сайта на GitHub Pages» или «помощник в расширении для Chrome» это меняет уравнение полностью.

Скептический ответ: 290 МБ — это всё равно много для первого открытия страницы, и пользователь не станет ждать тридцать секунд. Это правда. Но кеширование решает проблему повторных визитов, а интеграция в десктопные и мобильные приложения через WebView обходит вопрос полностью — модель приезжает с приложением и больше не качается.

Куда движется тренд

Главное, что показал Bonsai — это что 1-битная квантизация перестала быть исследовательской диковинкой. Microsoft с BitNet, Apple с собственными on-device моделями для iOS 26, Google с TurboQuant — все идут в одну точку: сделать модель достаточно маленькой, чтобы она помещалась на потребительском устройстве без потерь смысла.

Следующий шаг очевиден: 4B и 8B Bonsai в той же 1-битной + TurboQuant сборке. По прикидкам это ~700 МБ и ~1,3 ГБ соответственно. Для смартфона уже многовато, для ноутбука и iPad — норма. Если квалити-разрыв с frontier-моделями в этих размерах окажется не катастрофическим, локальный AI наконец станет дефолтом, а не нишей для энтузиастов.

Через год это, вероятно, будет рутиной — открыть сайт, получить языковую модель в подарок к интерфейсу. Сегодня это ещё повод написать новость.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

1-битный Bonsai 1.7B весит 290 МБ и запускается прямо в браузере

Что внутри

Что говорят те, кто потрогал

Что это меняет в продуктовой логике

Куда движется тренд

Похожие новости

AMD Instinct MI430X: 200 TFLOPs FP64 и обещание ×6 быстрее Nvidia Rubin

AMD засветила Ryzen AI MAX+ 495 «Gorgon Halo»: 192 ГБ для локальных LLM

NVIDIA выпустила GR00T N1.6 и Cosmos Reason 2: новый стек для гуманоидов