Step-3.5-Flash-int4 — новый король локальных LLM на 128 ГБ

StepFun выпустила Step-3.5-Flash-int4: MoE-модель на 196B параметров с INT4-квантизацией, SWE-bench 74.4% и скоростью до 350 tok/s. Работает на Mac Studio.

Влад Макаровпроверил и опубликовал

4 февраля 2026 г.

3 мин чтения

Упоминаемые модели

Kimi K2.5

Step-3.5-Flash-int4 — новый король локальных LLM на 128 ГБ

На Reddit-сообществе r/LocalLLaMA — главной площадке для энтузиастов локальных моделей — появился новый лидер. Step-3.5-Flash-int4 от китайской StepFun потеснила всех конкурентов в категории устройств со 128 ГБ оперативной памяти.

Что произошло

StepFun выпустила Step 3.5 Flash — open-source MoE-модель с 196 миллиардами параметров, из которых только 11 миллиардов активны на каждый токен. INT4-квантизованная версия в формате GGUF помещается в 128 ГБ и работает на потребительском железе — Mac Studio M4 Max, NVIDIA DGX Spark — со скоростью около 20 токенов в секунду. На серверном оборудовании скорость достигает 350 tok/s для задач программирования.

Ключевые характеристики:

196B параметров (MoE), 11B активных
SWE-bench Verified: 74.4%
Terminal-Bench 2.0: 51.0%
Контекст: 256K токенов (Sliding Window Attention 3:1)
3-way Multi-Token Prediction (MTP-3)
Лицензия: Apache 2.0

Один из пользователей с Mac Studio M1 Ultra на 128 ГБ написал: «Работает на полном контексте 256K. Не просто быстрая, но и невероятно эффективная по RAM». Другие подтвердили — модель стабильно обходит конкурентов в реальных задачах, особенно в программировании.

Почему это важно

74.4% на SWE-bench Verified — это результат, сопоставимый с лучшими закрытыми моделями. Для сравнения, Kimi K2.5 — лидер среди открытых моделей — показывает похожие цифры, но требует значительно больше ресурсов без квантизации.

Архитектура MoE с Sliding Window Attention 3:1 позволяет модели поддерживать огромный контекст при экономичном потреблении памяти. Multi-Token Prediction — техника, при которой модель предсказывает сразу три следующих токена — разгоняет генерацию без потери качества.

Для сообщества LocalLLaMA, где люди строят персональные AI-серверы из Mac Studio и подержанных серверных GPU, появление модели такого уровня на 128 ГБ — событие. Раньше в этот бюджет памяти помещались лишь компромиссные модели. Step-3.5-Flash-int4 разрушает этот барьер.

Что дальше

StepFun — относительно молодая китайская компания, но Step 3.5 Flash уже сопоставима с продуктами от DeepSeek и Moonshot. С ростом доступности 128-гигабайтных устройств (M4 Max, DGX Spark) запуск мощных LLM локально становится мейнстримом. А когда модель такого класса распространяется под Apache 2.0 — это меняет экономику AI для всех, от инди-разработчиков до корпораций, которые не хотят отправлять данные в облако.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Step-3.5-Flash-int4 — новый король локальных LLM на 128 ГБ

Что произошло

Почему это важно

Что дальше

Похожие новости

Zhipu подтвердила выход GLM-5 до китайского Нового года

Фикс GLM-4.7 Flash в llama.cpp: перескачайте модель

AI диагностирует скрытую болезнь сердца по 10-секундной ЭКГ