GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
anthropicclaudemetrбенчмаркиагентыagi

14,5 часов автономного кодинга: Opus 4.6 продолжает экспоненту METR

Claude Opus 4.6 достиг 50%-time-horizon в 14,5 часов на бенчмарке METR — экспоненциальный рост автономности AI-агентов продолжается без замедления.

Влад МакаровВлад Макаровпроверил и опубликовал
8 мин чтения
14,5 часов автономного кодинга: Opus 4.6 продолжает экспоненту METR

14 с половиной часов. Столько длится задача, которую Claude Opus 4.6 способен выполнить самостоятельно с вероятностью 50%. Три месяца назад его предшественник, Opus 4.5, справлялся с задачами на 5 часов 20 минут. Это больше чем удвоение за один квартал — и кривая не думает выравниваться.

Что измеряет METR

Организация METR (Model Evaluation & Threat Research) 20 февраля обновила свой главный бенчмарк — Time Horizons — добавив данные по Claude Opus 4.6 и GPT-5.3-Codex. Суть метрики: берётся набор из более чем ста задач в области программирования, машинного обучения и кибербезопасности, замеряется, сколько времени на каждую тратит квалифицированный человек, а затем проверяется, справится ли AI-агент.

50%-time-horizon — это продолжительность задачи (по человеческим меркам), с которой агент справляется в половине случаев. Для Opus 4.6 это значение составило примерно 14,5 часов с доверительным интервалом от 6 до 98 часов.

Важно понимать, что это не время работы самого агента. AI-системы обычно решают задачи в несколько раз быстрее людей — они пишут код «в один проход», им не нужно гуглить документацию. Речь идёт о сложности задачи: Opus 4.6 способен автономно решить задачу, на которую у опытного инженера ушло бы почти два рабочих дня.

Экспонента, которая не замедляется

С 2019 года METR фиксирует устойчивый экспоненциальный рост этой метрики. GPT-2 справлялся с задачами длительностью около четырёх секунд. GPT-4 — около шести минут. Claude Opus 4.0 — примерно час. Сейчас Opus 4.6 — 14,5 часов. На графике это выглядит как прямая линия на логарифмической шкале, без каких-либо признаков выхода на плато.

МодельДата50%-time-horizon
GPT-22019~4 секунды
GPT-4март 2023~6 минут
Claude 3.5 Sonnet (New)октябрь 2024~20 минут
o3апрель 2025~45 минут
Claude Opus 4.0май 2025~1 час
GPT-5август 2025~2 часа 17 минут
Claude Opus 4.5декабрь 2025~5 часов 20 минут
Claude Opus 4.6февраль 2026~14 часов 30 минут

Исследователи METR проверяли альтернативные модели подгонки — линейную, гиперболическую, логистическую — и показали, что экспоненциальная зависимость описывает данные значительно лучше остальных. Свидетельств замедления роста пока нет.

Что это значит на практике

Инженер Anthropic Николас Карлини на прошлой неделе провёл эксперимент: 16 агентов на базе Opus 4.6 за две недели и $20 000 в токенах написали с нуля C-компилятор на Rust — 100 000 строк кода, способный собрать ядро Linux на x86, ARM и RISC-V. Карлини пробовал то же самое с предыдущими моделями: Opus 4.5 проходил тесты, но захлёбывался на реальных проектах; более ранние версии едва ли могли произвести работающий компилятор вообще.

Azeem Azhar из Exponential View описал это так: каждый инкрементальный прирост автономности — это качественный скачок в реальных результатах. Модель, которая стабильно работает 14 часов, принципиально отличается от той, что работает 5 — не в три раза, а на порядок, потому что открывается целый класс задач, которые раньше были недоступны.

Оговорки, которые стоит услышать

METR подчёркивает несколько важных ограничений. Их задачи — это в основном программирование, ML и кибербезопасность. Экстраполировать результаты на все интеллектуальные задачи нельзя: в других доменах экспоненциальный тренд тоже наблюдается, но абсолютные значения сильно различаются.

14-часовой time horizon не означает, что AI может заменить инженера на полный рабочий день. Задачи METR хорошо специфицированы и автономны — у них есть чёткие критерии успеха. Большинство реальных рабочих задач требуют контекста, коммуникации с командой и критериев, которые невозможно оценить алгоритмически. В последующих исследованиях METR обнаружил, что при холистической оценке (а не алгоритмической) производительность агентов существенно падает.

Кроме того, time horizon измеряет способности человека с низким контекстом — нового сотрудника или фрилансера, а не опытного специалиста, который знает кодовую базу наизусть. Это важное уточнение, которое часто теряется в обсуждениях.

Куда ведёт экспонента

Если тренд сохранится — а пока нет оснований считать иначе — к середине 2026 года агенты могут достичь time horizon в несколько дней, а к концу года — неделю и больше. Это территория, где AI-агент способен взять проект уровня «внедрить новую фичу от спецификации до pull request» и довести его до конца без вмешательства человека.

Сообщество r/singularity на Reddit отреагировало предсказуемо бурно: пост набрал почти тысячу баллов с заголовком «Claude Opus 4.6 goes exponential on METR's 50%». Обсуждение крутилось вокруг главного вопроса — является ли эта кривая признаком приближения к AGI-уровню автономности.

Ответ METR на этот вопрос осторожен: 8-часовой time horizon не означает автоматизации всех рабочих мест, и даже значительно больший — тоже не означает, потому что реальная работа устроена сложнее тестовых задач. Но сама по себе кривая — пожалуй, наиболее конкретный и измеримый индикатор прогресса AI, который у нас есть. И она продолжает расти.

Похожие новости

Листайте вниз

для загрузки следующей статьи