Opus 4.7 проиграл Opus 4.6 на MineBench: что показал воксельный бенчмарк

Claude Opus 4.7 провалил MineBench — тест на пространственное мышление через воксельную сборку. Модель показала регресс относительно Opus 4.6. Разбираемся, почему.

Claude Opus 4.7 — самый хвалебно встреченный релиз Anthropic за последние полгода. Модель взяла лидерство по SWE-bench, MCP-Atlas, OSWorld-Verified, сократила разрыв с ещё не выпущенным Mythos Preview. Но один бенчмарк сломал общую картину: MineBench — тест на пространственное мышление через воксельную сборку — показал регресс относительно Opus 4.6. И это не первое место, где 4.7 проигрывает предшественнику.

Что такое MineBench

MineBench — открытый бенчмарк для оценки пространственного мышления LLM. Суть задачи простая: модель получает текстовый промпт (например, «построй средневековый замок с четырьмя башнями и внутренним двором») и должна вернуть голый JSON с 3D-координатами блоков. Никаких картинок, никаких 3D-инструментов на стороне модели — только математика и пространственное мышление.

Модель может выполнять Python-код для помощи в генерации и имеет доступ к кастомному voxelBuilder с примитивами (cube, sphere, square). Результаты визуализируются в воксельном рендерере, а ранжирование идёт через парные голосования пользователей по методу Эло — как на Chatbot Arena, только для трёхмерных построек.

MineBench появился в 2024-м и за два года стал одним из самых показательных тестов на «геометрическую интуицию» моделей. Бенчмарк сложный: хороший результат требует, чтобы модель удерживала в «голове» согласованную 3D-сцену без визуального фидбека.

Что показал Opus 4.7

По данным обновлённого leaderboard на 18 апреля:

Модель	MineBench Elo	Δ от Opus 4.6
Opus 4.6	1284	baseline
Opus 4.7	1227	−57
Mythos Preview	1361	+77
GPT-5.4	1198	−86
Gemini 3.1 Pro	1246	−38

Регресс на −57 пунктов Elo — это не шум. MineBench публикует доверительные интервалы; в данном случае разница значимая. Качественно разница видна в конкретных сборках: Opus 4.7 чаще путает ориентацию осей, строит «утекающие» стены (блоки не закрыты по периметру), неправильно вычисляет центры окружностей при попытке построить сферы или арки. Opus 4.6 на тех же промптах эти ошибки делал заметно реже.

Это не единственная регрессия

MineBench — второй публичный бенчмарк, где Opus 4.7 проиграл своему предшественнику. Первый — BrowseComp, тест на навигацию и извлечение информации с веб-страниц: там Opus 4.7 просел на 4.4 пункта относительно 4.6. Vellum в своём разборе прямо указывает на это как на «единственную явную регрессию в табличке». С MineBench их уже две.

Для Anthropic это не катастрофа — на главных бенчмарках (SWE-bench, MCP-Atlas, OSWorld) 4.7 уверенно впереди. Но паттерн тревожный: модели, оптимизированные под coding и agentic workloads, могут терять в нишевых, но важных для конкретных задач способностях.

Почему регресс именно на MineBench

Прямого объяснения от Anthropic нет, но есть обоснованные гипотезы. Во-первых, MineBench — пример задачи, где модель должна удерживать согласованное внутреннее представление 3D-сцены на всю длину ответа. Это требует высокой дисциплины в reasoning-цепочке. В Opus 4.7 Anthropic оптимизировала «reasoning efficiency» — модель думает меньше токенов, но быстрее приходит к ответу. Для кодинга это даёт выигрыш. Для построения сложной 3D-сцены коротких «мыслей» оказывается мало.

Во-вторых, training data. 4.7 получила больше агентных и инструментальных примеров в SFT — это видно по росту на MCP-Atlas и OSWorld. Но воксельные и геометрические задачи, вероятно, получили меньшую долю в миксе. Если гипотеза верна, регресс — это прямое следствие осознанного переноса акцента.

В-третьих, distillation-эффекты. На прошлой неделе llm-stats публиковал наблюдения, что Opus 4.7 ведёт себя как модель, прошедшая более агрессивную дистилляцию с Mythos. Дистилляция обычно сохраняет доминирующие способности (те, что в train-распределении мейнстрим), но отрезает «длинные хвосты». Пространственная визуализация в JSON — как раз такой хвост.

Что это значит

Для разработчиков, работающих над агентами и кодом, регресс на MineBench ничего не меняет — 4.7 остаётся лучшим выбором. Но для нишевых применений, где нужны пространственное мышление и 3D-reasoning (игровая разработка, CAD-помощники, архитектурные инструменты), Opus 4.6 всё ещё может быть более сильным выбором. Anthropic держит 4.6 доступным в API — это не legacy, его можно использовать параллельно с 4.7.

Более широкий урок — раскрытие бенчмарков стало таким плотным, что регрессы в отдельных областях становится сложнее прятать. Раньше компания могла «показать лучшее», умолчав о просадках. Теперь есть MineBench, BrowseComp, Terminal-Bench, десятки других — и каждая новая модель проверяется через них в течение суток после релиза.

Что дальше

Следующая точка внимания — модельная карточка Opus 4.7.1, если Anthropic решит выпускать патч-релиз. По исторической статистике (4.5 → 4.5.1, 4.6 → 4.6.1) такие минорные обновления выходят через 4–6 недель после основного релиза и часто адресуют конкретные регрессии. Если MineBench и BrowseComp получат там фикс — мы узнаем, что Anthropic действительно слушает leaderboard'ы.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Opus 4.7 проиграл Opus 4.6 на MineBench: что показал воксельный бенчмарк

Что такое MineBench

Что показал Opus 4.7

Это не единственная регрессия

Почему регресс именно на MineBench

Что это значит

Что дальше

Похожие новости

Bluesky выпустила AI-приложение для создания алгоритмических лент

Kimi K2.6 vs Claude Opus 4.7: легитимная замена за десятую часть цены

Claude Code на пару часов исчез из Pro-плана. Что это было