14,5 часов автономного кодинга: Opus 4.6 продолжает экспоненту METR
Claude Opus 4.6 достиг 50%-time-horizon в 14,5 часов на бенчмарке METR — экспоненциальный рост автономности AI-агентов продолжается без замедления.

14 с половиной часов. Столько длится задача, которую Claude Opus 4.6 способен выполнить самостоятельно с вероятностью 50%. Три месяца назад его предшественник, Opus 4.5, справлялся с задачами на 5 часов 20 минут. Это больше чем удвоение за один квартал — и кривая не думает выравниваться.
Что измеряет METR
Организация METR (Model Evaluation & Threat Research) 20 февраля обновила свой главный бенчмарк — Time Horizons — добавив данные по Claude Opus 4.6 и GPT-5.3-Codex. Суть метрики: берётся набор из более чем ста задач в области программирования, машинного обучения и кибербезопасности, замеряется, сколько времени на каждую тратит квалифицированный человек, а затем проверяется, справится ли AI-агент.
50%-time-horizon — это продолжительность задачи (по человеческим меркам), с которой агент справляется в половине случаев. Для Opus 4.6 это значение составило примерно 14,5 часов с доверительным интервалом от 6 до 98 часов.
Важно понимать, что это не время работы самого агента. AI-системы обычно решают задачи в несколько раз быстрее людей — они пишут код «в один проход», им не нужно гуглить документацию. Речь идёт о сложности задачи: Opus 4.6 способен автономно решить задачу, на которую у опытного инженера ушло бы почти два рабочих дня.
Экспонента, которая не замедляется
С 2019 года METR фиксирует устойчивый экспоненциальный рост этой метрики. GPT-2 справлялся с задачами длительностью около четырёх секунд. GPT-4 — около шести минут. Claude Opus 4.0 — примерно час. Сейчас Opus 4.6 — 14,5 часов. На графике это выглядит как прямая линия на логарифмической шкале, без каких-либо признаков выхода на плато.
| Модель | Дата | 50%-time-horizon |
|---|---|---|
| GPT-2 | 2019 | ~4 секунды |
| GPT-4 | март 2023 | ~6 минут |
| Claude 3.5 Sonnet (New) | октябрь 2024 | ~20 минут |
| o3 | апрель 2025 | ~45 минут |
| Claude Opus 4.0 | май 2025 | ~1 час |
| GPT-5 | август 2025 | ~2 часа 17 минут |
| Claude Opus 4.5 | декабрь 2025 | ~5 часов 20 минут |
| Claude Opus 4.6 | февраль 2026 | ~14 часов 30 минут |
Исследователи METR проверяли альтернативные модели подгонки — линейную, гиперболическую, логистическую — и показали, что экспоненциальная зависимость описывает данные значительно лучше остальных. Свидетельств замедления роста пока нет.
Что это значит на практике
Инженер Anthropic Николас Карлини на прошлой неделе провёл эксперимент: 16 агентов на базе Opus 4.6 за две недели и $20 000 в токенах написали с нуля C-компилятор на Rust — 100 000 строк кода, способный собрать ядро Linux на x86, ARM и RISC-V. Карлини пробовал то же самое с предыдущими моделями: Opus 4.5 проходил тесты, но захлёбывался на реальных проектах; более ранние версии едва ли могли произвести работающий компилятор вообще.
Azeem Azhar из Exponential View описал это так: каждый инкрементальный прирост автономности — это качественный скачок в реальных результатах. Модель, которая стабильно работает 14 часов, принципиально отличается от той, что работает 5 — не в три раза, а на порядок, потому что открывается целый класс задач, которые раньше были недоступны.
Оговорки, которые стоит услышать
METR подчёркивает несколько важных ограничений. Их задачи — это в основном программирование, ML и кибербезопасность. Экстраполировать результаты на все интеллектуальные задачи нельзя: в других доменах экспоненциальный тренд тоже наблюдается, но абсолютные значения сильно различаются.
14-часовой time horizon не означает, что AI может заменить инженера на полный рабочий день. Задачи METR хорошо специфицированы и автономны — у них есть чёткие критерии успеха. Большинство реальных рабочих задач требуют контекста, коммуникации с командой и критериев, которые невозможно оценить алгоритмически. В последующих исследованиях METR обнаружил, что при холистической оценке (а не алгоритмической) производительность агентов существенно падает.
Кроме того, time horizon измеряет способности человека с низким контекстом — нового сотрудника или фрилансера, а не опытного специалиста, который знает кодовую базу наизусть. Это важное уточнение, которое часто теряется в обсуждениях.
Куда ведёт экспонента
Если тренд сохранится — а пока нет оснований считать иначе — к середине 2026 года агенты могут достичь time horizon в несколько дней, а к концу года — неделю и больше. Это территория, где AI-агент способен взять проект уровня «внедрить новую фичу от спецификации до pull request» и довести его до конца без вмешательства человека.
Сообщество r/singularity на Reddit отреагировало предсказуемо бурно: пост набрал почти тысячу баллов с заголовком «Claude Opus 4.6 goes exponential on METR's 50%». Обсуждение крутилось вокруг главного вопроса — является ли эта кривая признаком приближения к AGI-уровню автономности.
Ответ METR на этот вопрос осторожен: 8-часовой time horizon не означает автоматизации всех рабочих мест, и даже значительно больший — тоже не означает, потому что реальная работа устроена сложнее тестовых задач. Но сама по себе кривая — пожалуй, наиболее конкретный и измеримый индикатор прогресса AI, который у нас есть. И она продолжает расти.


