Step-3.5-Flash-int4 — новый король локальных LLM на 128 ГБ
StepFun выпустила Step-3.5-Flash-int4: MoE-модель на 196B параметров с INT4-квантизацией, SWE-bench 74.4% и скоростью до 350 tok/s. Работает на Mac Studio.

На Reddit-сообществе r/LocalLLaMA — главной площадке для энтузиастов локальных моделей — появился новый лидер. Step-3.5-Flash-int4 от китайской StepFun потеснила всех конкурентов в категории устройств со 128 ГБ оперативной памяти.
Что произошло
StepFun выпустила Step 3.5 Flash — open-source MoE-модель с 196 миллиардами параметров, из которых только 11 миллиардов активны на каждый токен. INT4-квантизованная версия в формате GGUF помещается в 128 ГБ и работает на потребительском железе — Mac Studio M4 Max, NVIDIA DGX Spark — со скоростью около 20 токенов в секунду. На серверном оборудовании скорость достигает 350 tok/s для задач программирования.
Ключевые характеристики:
- 196B параметров (MoE), 11B активных
- SWE-bench Verified: 74.4%
- Terminal-Bench 2.0: 51.0%
- Контекст: 256K токенов (Sliding Window Attention 3:1)
- 3-way Multi-Token Prediction (MTP-3)
- Лицензия: Apache 2.0
Один из пользователей с Mac Studio M1 Ultra на 128 ГБ написал: «Работает на полном контексте 256K. Не просто быстрая, но и невероятно эффективная по RAM». Другие подтвердили — модель стабильно обходит конкурентов в реальных задачах, особенно в программировании.
Почему это важно
74.4% на SWE-bench Verified — это результат, сопоставимый с лучшими закрытыми моделями. Для сравнения, Kimi K2.5 — лидер среди открытых моделей — показывает похожие цифры, но требует значительно больше ресурсов без квантизации.
Архитектура MoE с Sliding Window Attention 3:1 позволяет модели поддерживать огромный контекст при экономичном потреблении памяти. Multi-Token Prediction — техника, при которой модель предсказывает сразу три следующих токена — разгоняет генерацию без потери качества.
Для сообщества LocalLLaMA, где люди строят персональные AI-серверы из Mac Studio и подержанных серверных GPU, появление модели такого уровня на 128 ГБ — событие. Раньше в этот бюджет памяти помещались лишь компромиссные модели. Step-3.5-Flash-int4 разрушает этот барьер.
Что дальше
StepFun — относительно молодая китайская компания, но Step 3.5 Flash уже сопоставима с продуктами от DeepSeek и Moonshot. С ростом доступности 128-гигабайтных устройств (M4 Max, DGX Spark) запуск мощных LLM локально становится мейнстримом. А когда модель такого класса распространяется под Apache 2.0 — это меняет экономику AI для всех, от инди-разработчиков до корпораций, которые не хотят отправлять данные в облако.
