GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
step-funlocal-llmmoeopen-sourceквантизация

Step-3.5-Flash-int4 — новый король локальных LLM на 128 ГБ

StepFun выпустила Step-3.5-Flash-int4: MoE-модель на 196B параметров с INT4-квантизацией, SWE-bench 74.4% и скоростью до 350 tok/s. Работает на Mac Studio.

Влад МакаровВлад Макаровпроверил и опубликовал
3 мин чтения
Упоминаемые модели
Step-3.5-Flash-int4 — новый король локальных LLM на 128 ГБ

На Reddit-сообществе r/LocalLLaMA — главной площадке для энтузиастов локальных моделей — появился новый лидер. Step-3.5-Flash-int4 от китайской StepFun потеснила всех конкурентов в категории устройств со 128 ГБ оперативной памяти.

Что произошло

StepFun выпустила Step 3.5 Flash — open-source MoE-модель с 196 миллиардами параметров, из которых только 11 миллиардов активны на каждый токен. INT4-квантизованная версия в формате GGUF помещается в 128 ГБ и работает на потребительском железе — Mac Studio M4 Max, NVIDIA DGX Spark — со скоростью около 20 токенов в секунду. На серверном оборудовании скорость достигает 350 tok/s для задач программирования.

Ключевые характеристики:

  • 196B параметров (MoE), 11B активных
  • SWE-bench Verified: 74.4%
  • Terminal-Bench 2.0: 51.0%
  • Контекст: 256K токенов (Sliding Window Attention 3:1)
  • 3-way Multi-Token Prediction (MTP-3)
  • Лицензия: Apache 2.0

Один из пользователей с Mac Studio M1 Ultra на 128 ГБ написал: «Работает на полном контексте 256K. Не просто быстрая, но и невероятно эффективная по RAM». Другие подтвердили — модель стабильно обходит конкурентов в реальных задачах, особенно в программировании.

Почему это важно

74.4% на SWE-bench Verified — это результат, сопоставимый с лучшими закрытыми моделями. Для сравнения, Kimi K2.5 — лидер среди открытых моделей — показывает похожие цифры, но требует значительно больше ресурсов без квантизации.

Архитектура MoE с Sliding Window Attention 3:1 позволяет модели поддерживать огромный контекст при экономичном потреблении памяти. Multi-Token Prediction — техника, при которой модель предсказывает сразу три следующих токена — разгоняет генерацию без потери качества.

Для сообщества LocalLLaMA, где люди строят персональные AI-серверы из Mac Studio и подержанных серверных GPU, появление модели такого уровня на 128 ГБ — событие. Раньше в этот бюджет памяти помещались лишь компромиссные модели. Step-3.5-Flash-int4 разрушает этот барьер.

Что дальше

StepFun — относительно молодая китайская компания, но Step 3.5 Flash уже сопоставима с продуктами от DeepSeek и Moonshot. С ростом доступности 128-гигабайтных устройств (M4 Max, DGX Spark) запуск мощных LLM локально становится мейнстримом. А когда модель такого класса распространяется под Apache 2.0 — это меняет экономику AI для всех, от инди-разработчиков до корпораций, которые не хотят отправлять данные в облако.

Похожие новости

Листайте вниз

для загрузки следующей статьи