GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
minimaxopen-sourcem2.5кодингагентыhugging-face

Конец «фронтирного налога»: MiniMax-M2.5 догнала Claude Sonnet

Открытая модель MiniMax-M2.5 с 229B параметрами набрала 80.2% на SWE-Bench — на уровне Claude Opus 4.5. Стоимость — в 10-20 раз меньше проприетарных аналогов.

Влад МакаровВлад Макаровпроверил и опубликовал
7 мин чтения
Конец «фронтирного налога»: MiniMax-M2.5 догнала Claude Sonnet

Долгое время в мире AI-моделей действовало негласное правило: хочешь фронтирное качество для кодинга и агентов — плати за Claude Opus или GPT-5. MiniMax-M2.5 это правило отменила. Открытая модель с лицензией MIT набрала 80.2% на SWE-Bench Verified — это четвёртое место в мире, сразу за Claude Opus 4.5 (80.9%) и GPT-5.2 Codex. И всё это при стоимости примерно в $1 в час.

Что такое MiniMax-M2.5

MiniMax — китайская AI-лаборатория, которая в октябре 2025 года выпустила M2.1, первую по-настоящему конкурентоспособную открытую модель для агентных задач. M2.5 — эволюция, вышедшая 11-12 февраля 2026 года на Hugging Face под лицензией MIT.

Архитектура — Mixture-of-Experts: 229 миллиардов параметров, но на каждый токен активны только 10 миллиардов. Это даёт скорость вывода, сопоставимую с моделями в 10 раз меньшего размера, при качестве фронтирного уровня. Контекстное окно — 1 миллион токенов.

Команда OpenHands (создатели SWE-Bench) получила ранний доступ и оценила результат прямо: «Мы можем сказать, что теперь есть модель, которая по качеству находится на уровне Claude Sonnet». На их бенчмарке M2.5 заняла четвёртое место, уступив только моделям из премиальной семейки Claude Opus и специализированному GPT-5.2 Codex.

Цифры, которые имеют значение

БенчмаркMiniMax-M2.5Claude Opus 4.5GPT-5.2Claude Sonnet 4.5
SWE-Bench Verified80.2%80.9%80.0%77.2%
Multi-SWE-Bench51.3% (лучший)
BFCL Multi-Turn76.8% (лучший)
MGSM (математика)87.0%
HumanEval (код)87.2%

Отдельно стоит обратить внимание на Multi-SWE-Bench (мультиязычные задачи программирования) и BFCL Multi-Turn (многошаговый вызов функций) — в обоих случаях M2.5 показала лучший результат в индустрии. Для модели, предназначенной для автономных агентов, второй показатель особенно важен.

При этом M2.5 завершает оценку SWE-Bench на 37% быстрее, чем её предшественница M2.1, и сравнима по скорости с Claude Opus 4.6.

Как этого добились

MiniMax применила подход, отличающийся от обычного supervised fine-tuning. Модель обучалась через reinforcement learning в более чем 200 000 реальных рабочих сред. Причём в тренировочный цикл были подключены разные агентные фреймворки — Claude Code, Droid, OpenCode и кастомные обвязки. Идея в том, чтобы модель не переобучалась на один конкретный интерфейс, а умела работать в любой среде.

Ещё одна особенность — process-level rewards: система мониторила качество генерации на протяжении всей траектории решения, а не только оценивала конечный результат. В качестве одного из сигналов вознаграждения использовалось реальное время выполнения задачи — модель буквально учили работать быстрее.

Результат заметен в практическом использовании. Там, где многие модели «разваливаются» после 10-15 шагов автономной работы, теряя контекст и план, M2.5 способна поддерживать целостность выполнения на протяжении часов. MiniMax называет это «Agent Universe» — среды, где AI должен действовать по-настоящему автономно.

Экономика вопроса

Вот что на самом деле делает M2.5 разрушительной. Стоимость вывода — в 10-20 раз ниже, чем у сопоставимых по качеству проприетарных моделей. Максим Лабонн из Hugging Face назвал её «фронтирная модель за $1 в час».

Доступно два варианта API: стандартный M2.5 (50 токенов/с) и M2.5-Lightning (100 токенов/с) с идентичным качеством. Веса свободно доступны для самостоятельного развёртывания — нужны 2 NVIDIA B200 или 4 H100. Для локального запуска существуют GGUF-квантизации вплоть до IQ2_KS (69.8 ГиБ).

Windsurf (AI-кодинг агент) интегрировал предыдущую версию M2 как «единственную открытую модель, достаточно сильную для предложения пользователям». С выходом M2.5 таких интеграций станет значительно больше.

Почему это важно для индустрии

До сих пор фронтирные возможности в кодинге и агентных сценариях были доступны только через проприетарные API по премиальным ценам. Это создавало так называемый «фронтирный налог» — за лучшее качество нужно было платить OpenAI или Anthropic.

M2.5 вместе с вышедшей на той же неделе GLM-5 от Zhipu (744B параметров, MIT-лицензия) фактически ликвидирует этот разрыв в ключевых сценариях. Разница между открытыми и закрытыми моделями «фактически исчезла в областях, наиболее важных для будущего работы: кодинге и агентах», как сформулировала Limited Intelligence.

Для разработчиков это означает возможность строить агентные системы, не привязываясь к одному провайдеру. Для бизнеса — радикальное снижение стоимости AI-автоматизации. Для индустрии в целом — вопрос о том, как OpenAI и Anthropic будут обосновывать премиальную наценку, когда открытая альтернатива даёт 95% качества за 5% цены.

Что дальше

MiniMax уже выпустила агентную платформу на базе M2.5, тоже полностью открытую. Модель поддерживает обработку изображений, что выделяет её среди многих конкурирующих открытых моделей. Сообщество LocalLLaMA активно работает над квантизацией и оптимизацией для домашних серверов.

Главный вопрос теперь не в том, может ли открытая модель конкурировать с проприетарными. Может. Вопрос в том, как быстро это изменит расстановку сил на рынке AI-инструментов для разработчиков.

Похожие новости

Листайте вниз

для загрузки следующей статьи