14,5 часов автономного кодинга: Opus 4.6 продолжает экспоненту METR

Claude Opus 4.6 достиг 50%-time-horizon в 14,5 часов на бенчмарке METR — экспоненциальный рост автономности AI-агентов продолжается без замедления.

14 с половиной часов. Столько длится задача, которую Claude Opus 4.6 способен выполнить самостоятельно с вероятностью 50%. Три месяца назад его предшественник, Opus 4.5, справлялся с задачами на 5 часов 20 минут. Это больше чем удвоение за один квартал — и кривая не думает выравниваться.

Что измеряет METR

Организация METR (Model Evaluation & Threat Research) 20 февраля обновила свой главный бенчмарк — Time Horizons — добавив данные по Claude Opus 4.6 и GPT-5.3-Codex. Суть метрики: берётся набор из более чем ста задач в области программирования, машинного обучения и кибербезопасности, замеряется, сколько времени на каждую тратит квалифицированный человек, а затем проверяется, справится ли AI-агент.

50%-time-horizon — это продолжительность задачи (по человеческим меркам), с которой агент справляется в половине случаев. Для Opus 4.6 это значение составило примерно 14,5 часов с доверительным интервалом от 6 до 98 часов.

Важно понимать, что это не время работы самого агента. AI-системы обычно решают задачи в несколько раз быстрее людей — они пишут код «в один проход», им не нужно гуглить документацию. Речь идёт о сложности задачи: Opus 4.6 способен автономно решить задачу, на которую у опытного инженера ушло бы почти два рабочих дня.

Экспонента, которая не замедляется

С 2019 года METR фиксирует устойчивый экспоненциальный рост этой метрики. GPT-2 справлялся с задачами длительностью около четырёх секунд. GPT-4 — около шести минут. Claude Opus 4.0 — примерно час. Сейчас Opus 4.6 — 14,5 часов. На графике это выглядит как прямая линия на логарифмической шкале, без каких-либо признаков выхода на плато.

Модель	Дата	50%-time-horizon
GPT-2	2019	~4 секунды
GPT-4	март 2023	~6 минут
Claude 3.5 Sonnet (New)	октябрь 2024	~20 минут
o3	апрель 2025	~45 минут
Claude Opus 4.0	май 2025	~1 час
GPT-5	август 2025	~2 часа 17 минут
Claude Opus 4.5	декабрь 2025	~5 часов 20 минут
Claude Opus 4.6	февраль 2026	~14 часов 30 минут

Исследователи METR проверяли альтернативные модели подгонки — линейную, гиперболическую, логистическую — и показали, что экспоненциальная зависимость описывает данные значительно лучше остальных. Свидетельств замедления роста пока нет.

Что это значит на практике

Инженер Anthropic Николас Карлини на прошлой неделе провёл эксперимент: 16 агентов на базе Opus 4.6 за две недели и $20 000 в токенах написали с нуля C-компилятор на Rust — 100 000 строк кода, способный собрать ядро Linux на x86, ARM и RISC-V. Карлини пробовал то же самое с предыдущими моделями: Opus 4.5 проходил тесты, но захлёбывался на реальных проектах; более ранние версии едва ли могли произвести работающий компилятор вообще.

Azeem Azhar из Exponential View описал это так: каждый инкрементальный прирост автономности — это качественный скачок в реальных результатах. Модель, которая стабильно работает 14 часов, принципиально отличается от той, что работает 5 — не в три раза, а на порядок, потому что открывается целый класс задач, которые раньше были недоступны.

Оговорки, которые стоит услышать

METR подчёркивает несколько важных ограничений. Их задачи — это в основном программирование, ML и кибербезопасность. Экстраполировать результаты на все интеллектуальные задачи нельзя: в других доменах экспоненциальный тренд тоже наблюдается, но абсолютные значения сильно различаются.

14-часовой time horizon не означает, что AI может заменить инженера на полный рабочий день. Задачи METR хорошо специфицированы и автономны — у них есть чёткие критерии успеха. Большинство реальных рабочих задач требуют контекста, коммуникации с командой и критериев, которые невозможно оценить алгоритмически. В последующих исследованиях METR обнаружил, что при холистической оценке (а не алгоритмической) производительность агентов существенно падает.

Кроме того, time horizon измеряет способности человека с низким контекстом — нового сотрудника или фрилансера, а не опытного специалиста, который знает кодовую базу наизусть. Это важное уточнение, которое часто теряется в обсуждениях.

Куда ведёт экспонента

Если тренд сохранится — а пока нет оснований считать иначе — к середине 2026 года агенты могут достичь time horizon в несколько дней, а к концу года — неделю и больше. Это территория, где AI-агент способен взять проект уровня «внедрить новую фичу от спецификации до pull request» и довести его до конца без вмешательства человека.

Сообщество r/singularity на Reddit отреагировало предсказуемо бурно: пост набрал почти тысячу баллов с заголовком «Claude Opus 4.6 goes exponential on METR's 50%». Обсуждение крутилось вокруг главного вопроса — является ли эта кривая признаком приближения к AGI-уровню автономности.

Ответ METR на этот вопрос осторожен: 8-часовой time horizon не означает автоматизации всех рабочих мест, и даже значительно больший — тоже не означает, потому что реальная работа устроена сложнее тестовых задач. Но сама по себе кривая — пожалуй, наиболее конкретный и измеримый индикатор прогресса AI, который у нас есть. И она продолжает расти.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

14,5 часов автономного кодинга: Opus 4.6 продолжает экспоненту METR

Что измеряет METR

Экспонента, которая не замедляется

Что это значит на практике

Оговорки, которые стоит услышать

Куда ведёт экспонента

Похожие новости

Claude Code Security обрушил акции кибербезопасности на $15 млрд

90% кода Claude Code написано самим Claude Code

Трамп объявил войну Anthropic — компанию отключают от госконтрактов