clawbenchagentsclaude-sonnet
Реальная сеть унижает AI-агентов: лучший результат на ClawBench — всего 33%
Новый бенчмарк ClawBench тестирует AI-агентов на 153 задачах через 144 живых сайта. Лидер — Claude Sonnet 4.6 — справляется только с 33,3%, GPT-5.4 — с 6,5%.
3 мин