MiniMax M2.7: первая open-source модель, которая улучшает сама себя
Китайский стартап MiniMax выпустил M2.7 — открытую модель с механизмом самоэволюции. За 100+ раундов автономной оптимизации она улучшила собственную производительность на 30%, а по агентным бенчмаркам вплотную подобралась к Opus 4.6 и GPT-5.4.

56.22% на SWE-Pro, 57% на Terminal Bench 2 и 30-процентный прирост производительности, достигнутый без участия человека. MiniMax M2.7 — не просто очередная большая языковая модель. Это первая открытая система, которая активно участвовала в собственном обучении: анализировала свои ошибки, переписывала код инфраструктуры и запускала оценку результатов. Китайский стартап MiniMax, известный генератором видео Hailuo, 18 марта выложил модель в открытый доступ — и она уже доступна на Ollama и через API.
Что такое самоэволюция
MiniMax называет свой подход «Early Echoes of Self-Evolution» — ранние отголоски самоэволюции. За красивым названием стоит конкретный инженерный процесс. Во время разработки M2.7 получила доступ к собственной инфраструктуре обучения и выполнила более ста раундов автономной оптимизации.
Цикл выглядит так: модель анализирует траектории неудачных решений, планирует изменения, модифицирует scaffold-код, запускает оценку, сравнивает результаты с предыдущей версией и решает — сохранить изменения или откатить. По сути, это тот же цикл, которым пользуется инженер при отладке, только выполняет его сама модель.
Результат — 30% прирост на внутренних бенчмарках. На MLE Bench Lite модель показала 66.6% медального рейтинга, уступив только Opus 4.6 (75.7%) и GPT-5.4 (71.2%) и сравнявшись с Gemini 3.1. Для открытой модели это рекордный показатель.
Важно понимать: M2.7 не переписывала свои веса напрямую. Она оптимизировала внешнюю обвязку — скаффолд-код, навыки, память. Но сам факт, что модель способна системно улучшать свой рабочий процесс, открывает новую страницу в разработке AI-систем.
Бенчмарки: на уровне закрытых флагманов
Главная интрига M2.7 — её позиция относительно закрытых моделей. В агентных бенчмарках разрыв оказался минимальным.
| Бенчмарк | MiniMax M2.7 | Opus 4.6 | GPT-5.4 | Sonnet 4.6 |
|---|---|---|---|---|
| SWE-Pro | 56.22% | ~57% | 56.2%* | — |
| VIBE-Pro | 55.6% | ~56% | — | — |
| Terminal Bench 2 | 57.0% | — | — | — |
| GDPval-AA ELO | 1495 | выше | выше | выше |
| Toolathon | 46.3% | — | — | — |
| MLE Bench Lite | 66.6% | 75.7% | 71.2% | — |
| SWE Multilingual | 76.5 | — | — | — |
| Multi SWE Bench | 52.7 | — | — | — |
*GPT-5.3-Codex
На SWE-Pro — одном из самых авторитетных бенчмарков для оценки программистских способностей — M2.7 набрала 56.22%, практически догнав лучший результат Opus и сравнявшись с GPT-5.3-Codex. По GDPval-AA ELO (1495 баллов) это лучший показатель среди всех open-source моделей, уступающий только тройке закрытых флагманов.
Отдельного внимания заслуживает Toolathon — бенчмарк на использование инструментов: 46.3% ставит M2.7 в мировой топ. А 97% adherence rate при работе с 40+ сложными навыками (каждый по 2000+ токенов) говорит о том, что модель стабильно следует длинным инструкциям — проблема, с которой до сих пор борются многие конкуренты.
Агентные возможности на практике
M2.7 спроектирована как агентная модель, и это проявляется в конкретных сценариях. MiniMax заявляет, что при production-дебаггинге модель сокращает время восстановления после инцидентов до трёх минут. Для контекста: в типичной компании mean time to recovery измеряется десятками минут, а иногда часами.
Модель поддерживает нативные Agent Teams — мультиагентную коллаборацию, где несколько экземпляров модели координируют работу над задачей. К этому добавляется динамический поиск инструментов и сложные навыки, которые модель может комбинировать на лету.
Спектр применений выходит за рамки кодинга. MiniMax демонстрирует работу с офисными документами — редактирование Word, Excel и PowerPoint, — а также финансовое моделирование. В одном из примеров M2.7 построила модель выручки TSMC с нуля. Компания также выпустила OpenRoom — открытую систему взаимодействия для агентов.
Почему это важно для open-source сообщества
До M2.7 агентные бенчмарки безраздельно принадлежали закрытым моделям. Разрыв между open-source решениями и флагманами Anthropic, OpenAI и Google был настолько велик, что многие считали его непреодолимым без колоссальных вычислительных ресурсов.
M2.7 меняет эту картину. Модель доступна на GitHub, работает через Ollama, имеет API на platform.minimax.io и собственный агентный интерфейс на agent.minimax.io. Разработчики могут развернуть её локально и адаптировать под свои задачи — то, что с Opus или GPT-5 невозможно в принципе.
Для компаний, работающих с чувствительными данными или в регулируемых отраслях, появление агентной open-source модели такого уровня — это реальная альтернатива закрытым API. Не нужно отправлять код и данные на внешние серверы, не нужно зависеть от ценовой политики одного провайдера.
Механизм самоэволюции: ограничения и перспективы
Стоит трезво оценивать самоэволюцию M2.7. Модель оптимизировала scaffold-код и навыки, а не свою архитектуру или веса. Это ближе к автоматизированному prompt engineering, чем к полноценному самообучению. Тем не менее, 30% прирост производительности за 100+ автономных итераций — это впечатляющий результат, который показывает, что даже внешняя оптимизация при правильном подходе даёт значительный эффект.
Интересно, что во время разработки модель сама обновляла свою память и построила десятки сложных навыков для экспериментов с reinforcement learning. Если MiniMax удастся замкнуть этот цикл — позволить модели влиять и на веса тоже — это будет качественно другой уровень.
Выводы
MiniMax M2.7 — редкий случай, когда open-source модель конкурирует с закрытыми флагманами не в синтетических тестах на знания, а в практических агентных задачах: написании кода, отладке, работе с инструментами. Для китайского стартапа, который большинство знает по генератору видео Hailuo, это серьёзная заявка на место в верхнем эшелоне AI-индустрии.
Разработчикам стоит обратить на M2.7 внимание уже сейчас — особенно тем, кто строит агентные системы и ищет открытую альтернативу Claude и GPT. Модель доступна для скачивания и экспериментов, документация открыта, а результаты бенчмарков говорят сами за себя.
Что касается самоэволюции — пока это скорее красивый концепт с практическим результатом, чем революция. Но направление задано, и следующие итерации от MiniMax будут особенно интересны.

