GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
clawbenchagentsclaude-sonnetgpt-5benchmarkresearch

Реальная сеть унижает AI-агентов: лучший результат на ClawBench — всего 33%

Новый бенчмарк ClawBench тестирует AI-агентов на 153 задачах через 144 живых сайта. Лидер — Claude Sonnet 4.6 — справляется только с 33,3%, GPT-5.4 — с 6,5%.

Влад МакаровВлад Макаровпроверил и опубликовал
3 мин чтения
Реальная сеть унижает AI-агентов: лучший результат на ClawBench — всего 33%

«AI-агенты вот-вот заменят человека в браузере» — это популярный тезис последнего года. Новый бенчмарк ClawBench показывает, что реальность скромнее: даже лучший на сегодня агент справляется с обычными интернет-задачами на 33,3%. GPT-5.4 — на 6,5%.

Что произошло

Команда исследователей опубликовала на arXiv бенчмарк ClawBench — открытый набор из 153 задач, разделённых на 15 категорий повседневной онлайн-активности. Главное отличие от существующих тестов вроде OSWorld и WebArena — задачи выполняются на живых production-сайтах, а не в песочнице со статичными копиями страниц.

Список задач включает то, что обычный человек делает в браузере каждый день:

  • Бронирование путешествий и билетов
  • Заказ еды
  • Подача заявок на работу
  • Управление почтой
  • Покупки в интернет-магазинах

Всего 144 живых платформы — от Booking.com до Indeed, от Amazon до DoorDash. Бенчмарк опирается на пятислойную систему записи действий, DOM-сравнение и LLM-судью для оценки результатов.

Кто и как тестировался

Лидерборд получился неожиданным. Claude Sonnet 4.6 от Anthropic выдаёт 33,3% успеха — это лучший результат на ClawBench. Следом с большим отрывом — Claude Opus 4.7 и Gemini 3.1 Pro. GPT-5.4 от OpenAI закрывает только 6,5% задач.

МодельClawBench (live web)OSWorld (sandbox)Разница
Claude Sonnet 4.633,3%65–75%падение в 2x
GPT-5.46,5%65–75%падение в 10x

После таблицы становится понятно, насколько результаты в песочнице обманчивы. Те же модели, которые показывают 65–75% на закрытых тестах OSWorld и WebArena, проваливаются на реальных сайтах.

Почему агенты не справляются

Причин три, и все они связаны с тем, что реальный веб устроен сложнее, чем привыкли модели.

Первая — динамическая природа сайтов. Реальные интерфейсы постоянно подгружают контент, открывают модальные окна, требуют CAPTCHA, A/B тестируют разные версии страниц. Песочничные бенчмарки этого не имитируют.

Вторая — write-heavy задачи. ClawBench включает действия, которые меняют состояние мира: оформление заказа, отправка email, заявка на работу. Это сложнее, чем «прочитать данные» — нужно работать аккуратно, нельзя нажать «оплатить» в неправильный момент.

Третья — обработка ошибок. На реальных сайтах что-то постоянно идёт не так: сетевые задержки, нестандартные формы, всплывающие баннеры. Агенты, обученные на чистых сценариях, теряются.

Сами авторы предусмотрели защиту: runner работает в hardened-контейнере с request interceptor, который блокирует покупки, регистрации, отправку писем и другие необратимые действия. То есть модель «думает», что нажала «оплатить», но платёж не уходит. Это критично для тестирования на живых сайтах — иначе оценка превратилась бы в спам реальных сервисов.

Что это значит

ClawBench — это первая попытка измерить агентов в условиях, максимально близких к real-world. И эта попытка наглядно показывает разрыв между маркетингом и реальностью. Когда вендор говорит «наш агент решает 70% задач в браузере» — это про OSWorld. Реальные production-сайты — другая история.

Для индустрии AI-агентов это сигнал: мы значительно дальше от автономного браузерного агента, чем кажется по leaderboard'ам. Sierra, Adept, Operator от OpenAI и им подобные продукты пока что ограничены конкретными доменами и интеграциями именно потому, что generic-агент на любом сайте всё ещё не работает.

Для пользователей это повод снизить ожидания. Если вы рассчитываете, что Claude или GPT за вас закажет такси, забронирует отель и оформит подписку без вашего участия — пока что нет. В половине случаев он застрянет на промежуточном шаге.

Бенчмарк открыт на GitHub — любая команда может прогнать на нём свою модель и опубликовать результаты. Скорее всего, в ближайшие месяцы лидерборд начнёт активно меняться: следующие версии Claude и GPT уже заточены под агентные сценарии, и 33% — потолок не на долго. Но 90%+ — пока за горизонтом.

Похожие новости

Листайте вниз

для загрузки следующей статьи