GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
minimaxopen-sourceагентыself-evolutionбенчмарки

MiniMax M2.7: первая open-source модель, которая улучшает сама себя

Китайский стартап MiniMax выпустил M2.7 — открытую модель с механизмом самоэволюции. За 100+ раундов автономной оптимизации она улучшила собственную производительность на 30%, а по агентным бенчмаркам вплотную подобралась к Opus 4.6 и GPT-5.4.

Влад МакаровВлад Макаровпроверил и опубликовал
7 мин чтения
MiniMax M2.7: первая open-source модель, которая улучшает сама себя

56.22% на SWE-Pro, 57% на Terminal Bench 2 и 30-процентный прирост производительности, достигнутый без участия человека. MiniMax M2.7 — не просто очередная большая языковая модель. Это первая открытая система, которая активно участвовала в собственном обучении: анализировала свои ошибки, переписывала код инфраструктуры и запускала оценку результатов. Китайский стартап MiniMax, известный генератором видео Hailuo, 18 марта выложил модель в открытый доступ — и она уже доступна на Ollama и через API.

Что такое самоэволюция

MiniMax называет свой подход «Early Echoes of Self-Evolution» — ранние отголоски самоэволюции. За красивым названием стоит конкретный инженерный процесс. Во время разработки M2.7 получила доступ к собственной инфраструктуре обучения и выполнила более ста раундов автономной оптимизации.

Цикл выглядит так: модель анализирует траектории неудачных решений, планирует изменения, модифицирует scaffold-код, запускает оценку, сравнивает результаты с предыдущей версией и решает — сохранить изменения или откатить. По сути, это тот же цикл, которым пользуется инженер при отладке, только выполняет его сама модель.

Результат — 30% прирост на внутренних бенчмарках. На MLE Bench Lite модель показала 66.6% медального рейтинга, уступив только Opus 4.6 (75.7%) и GPT-5.4 (71.2%) и сравнявшись с Gemini 3.1. Для открытой модели это рекордный показатель.

Важно понимать: M2.7 не переписывала свои веса напрямую. Она оптимизировала внешнюю обвязку — скаффолд-код, навыки, память. Но сам факт, что модель способна системно улучшать свой рабочий процесс, открывает новую страницу в разработке AI-систем.

Бенчмарки: на уровне закрытых флагманов

Главная интрига M2.7 — её позиция относительно закрытых моделей. В агентных бенчмарках разрыв оказался минимальным.

БенчмаркMiniMax M2.7Opus 4.6GPT-5.4Sonnet 4.6
SWE-Pro56.22%~57%56.2%*
VIBE-Pro55.6%~56%
Terminal Bench 257.0%
GDPval-AA ELO1495вышевышевыше
Toolathon46.3%
MLE Bench Lite66.6%75.7%71.2%
SWE Multilingual76.5
Multi SWE Bench52.7

*GPT-5.3-Codex

На SWE-Pro — одном из самых авторитетных бенчмарков для оценки программистских способностей — M2.7 набрала 56.22%, практически догнав лучший результат Opus и сравнявшись с GPT-5.3-Codex. По GDPval-AA ELO (1495 баллов) это лучший показатель среди всех open-source моделей, уступающий только тройке закрытых флагманов.

Отдельного внимания заслуживает Toolathon — бенчмарк на использование инструментов: 46.3% ставит M2.7 в мировой топ. А 97% adherence rate при работе с 40+ сложными навыками (каждый по 2000+ токенов) говорит о том, что модель стабильно следует длинным инструкциям — проблема, с которой до сих пор борются многие конкуренты.

Агентные возможности на практике

M2.7 спроектирована как агентная модель, и это проявляется в конкретных сценариях. MiniMax заявляет, что при production-дебаггинге модель сокращает время восстановления после инцидентов до трёх минут. Для контекста: в типичной компании mean time to recovery измеряется десятками минут, а иногда часами.

Модель поддерживает нативные Agent Teams — мультиагентную коллаборацию, где несколько экземпляров модели координируют работу над задачей. К этому добавляется динамический поиск инструментов и сложные навыки, которые модель может комбинировать на лету.

Спектр применений выходит за рамки кодинга. MiniMax демонстрирует работу с офисными документами — редактирование Word, Excel и PowerPoint, — а также финансовое моделирование. В одном из примеров M2.7 построила модель выручки TSMC с нуля. Компания также выпустила OpenRoom — открытую систему взаимодействия для агентов.

Почему это важно для open-source сообщества

До M2.7 агентные бенчмарки безраздельно принадлежали закрытым моделям. Разрыв между open-source решениями и флагманами Anthropic, OpenAI и Google был настолько велик, что многие считали его непреодолимым без колоссальных вычислительных ресурсов.

M2.7 меняет эту картину. Модель доступна на GitHub, работает через Ollama, имеет API на platform.minimax.io и собственный агентный интерфейс на agent.minimax.io. Разработчики могут развернуть её локально и адаптировать под свои задачи — то, что с Opus или GPT-5 невозможно в принципе.

Для компаний, работающих с чувствительными данными или в регулируемых отраслях, появление агентной open-source модели такого уровня — это реальная альтернатива закрытым API. Не нужно отправлять код и данные на внешние серверы, не нужно зависеть от ценовой политики одного провайдера.

Механизм самоэволюции: ограничения и перспективы

Стоит трезво оценивать самоэволюцию M2.7. Модель оптимизировала scaffold-код и навыки, а не свою архитектуру или веса. Это ближе к автоматизированному prompt engineering, чем к полноценному самообучению. Тем не менее, 30% прирост производительности за 100+ автономных итераций — это впечатляющий результат, который показывает, что даже внешняя оптимизация при правильном подходе даёт значительный эффект.

Интересно, что во время разработки модель сама обновляла свою память и построила десятки сложных навыков для экспериментов с reinforcement learning. Если MiniMax удастся замкнуть этот цикл — позволить модели влиять и на веса тоже — это будет качественно другой уровень.

Выводы

MiniMax M2.7 — редкий случай, когда open-source модель конкурирует с закрытыми флагманами не в синтетических тестах на знания, а в практических агентных задачах: написании кода, отладке, работе с инструментами. Для китайского стартапа, который большинство знает по генератору видео Hailuo, это серьёзная заявка на место в верхнем эшелоне AI-индустрии.

Разработчикам стоит обратить на M2.7 внимание уже сейчас — особенно тем, кто строит агентные системы и ищет открытую альтернативу Claude и GPT. Модель доступна для скачивания и экспериментов, документация открыта, а результаты бенчмарков говорят сами за себя.

Что касается самоэволюции — пока это скорее красивый концепт с практическим результатом, чем революция. Но направление задано, и следующие итерации от MiniMax будут особенно интересны.

Похожие новости

Листайте вниз

для загрузки следующей статьи