Реальная сеть унижает AI-агентов: лучший результат на ClawBench — всего 33%
Новый бенчмарк ClawBench тестирует AI-агентов на 153 задачах через 144 живых сайта. Лидер — Claude Sonnet 4.6 — справляется только с 33,3%, GPT-5.4 — с 6,5%.

«AI-агенты вот-вот заменят человека в браузере» — это популярный тезис последнего года. Новый бенчмарк ClawBench показывает, что реальность скромнее: даже лучший на сегодня агент справляется с обычными интернет-задачами на 33,3%. GPT-5.4 — на 6,5%.
Что произошло
Команда исследователей опубликовала на arXiv бенчмарк ClawBench — открытый набор из 153 задач, разделённых на 15 категорий повседневной онлайн-активности. Главное отличие от существующих тестов вроде OSWorld и WebArena — задачи выполняются на живых production-сайтах, а не в песочнице со статичными копиями страниц.
Список задач включает то, что обычный человек делает в браузере каждый день:
- Бронирование путешествий и билетов
- Заказ еды
- Подача заявок на работу
- Управление почтой
- Покупки в интернет-магазинах
Всего 144 живых платформы — от Booking.com до Indeed, от Amazon до DoorDash. Бенчмарк опирается на пятислойную систему записи действий, DOM-сравнение и LLM-судью для оценки результатов.
Кто и как тестировался
Лидерборд получился неожиданным. Claude Sonnet 4.6 от Anthropic выдаёт 33,3% успеха — это лучший результат на ClawBench. Следом с большим отрывом — Claude Opus 4.7 и Gemini 3.1 Pro. GPT-5.4 от OpenAI закрывает только 6,5% задач.
| Модель | ClawBench (live web) | OSWorld (sandbox) | Разница |
|---|---|---|---|
| Claude Sonnet 4.6 | 33,3% | 65–75% | падение в 2x |
| GPT-5.4 | 6,5% | 65–75% | падение в 10x |
После таблицы становится понятно, насколько результаты в песочнице обманчивы. Те же модели, которые показывают 65–75% на закрытых тестах OSWorld и WebArena, проваливаются на реальных сайтах.
Почему агенты не справляются
Причин три, и все они связаны с тем, что реальный веб устроен сложнее, чем привыкли модели.
Первая — динамическая природа сайтов. Реальные интерфейсы постоянно подгружают контент, открывают модальные окна, требуют CAPTCHA, A/B тестируют разные версии страниц. Песочничные бенчмарки этого не имитируют.
Вторая — write-heavy задачи. ClawBench включает действия, которые меняют состояние мира: оформление заказа, отправка email, заявка на работу. Это сложнее, чем «прочитать данные» — нужно работать аккуратно, нельзя нажать «оплатить» в неправильный момент.
Третья — обработка ошибок. На реальных сайтах что-то постоянно идёт не так: сетевые задержки, нестандартные формы, всплывающие баннеры. Агенты, обученные на чистых сценариях, теряются.
Сами авторы предусмотрели защиту: runner работает в hardened-контейнере с request interceptor, который блокирует покупки, регистрации, отправку писем и другие необратимые действия. То есть модель «думает», что нажала «оплатить», но платёж не уходит. Это критично для тестирования на живых сайтах — иначе оценка превратилась бы в спам реальных сервисов.
Что это значит
ClawBench — это первая попытка измерить агентов в условиях, максимально близких к real-world. И эта попытка наглядно показывает разрыв между маркетингом и реальностью. Когда вендор говорит «наш агент решает 70% задач в браузере» — это про OSWorld. Реальные production-сайты — другая история.
Для индустрии AI-агентов это сигнал: мы значительно дальше от автономного браузерного агента, чем кажется по leaderboard'ам. Sierra, Adept, Operator от OpenAI и им подобные продукты пока что ограничены конкретными доменами и интеграциями именно потому, что generic-агент на любом сайте всё ещё не работает.
Для пользователей это повод снизить ожидания. Если вы рассчитываете, что Claude или GPT за вас закажет такси, забронирует отель и оформит подписку без вашего участия — пока что нет. В половине случаев он застрянет на промежуточном шаге.
Бенчмарк открыт на GitHub — любая команда может прогнать на нём свою модель и опубликовать результаты. Скорее всего, в ближайшие месяцы лидерборд начнёт активно меняться: следующие версии Claude и GPT уже заточены под агентные сценарии, и 33% — потолок не на долго. Но 90%+ — пока за горизонтом.
