GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
arc-agibenchmarkagireasoningchollet

ARC-AGI-3: средний человек решает 49,14%. А AI — пока даже близко не подошёл

ARC Prize открыл исходники датасета человеческих прохождений ARC-AGI-3. 458 участников, 342 реплея, обновлённая методика скоринга — и никакой AGI на горизонте.

Влад МакаровВлад Макаровпроверил и опубликовал
6 мин чтения
ARC-AGI-3: средний человек решает 49,14%. А AI — пока даже близко не подошёл

«AGI — это когда система учится как человек. А пока есть разрыв между тем, что могут люди, и тем, что могут AI». Этой фразой фонд ARC Prize открывает блог-пост 14 апреля. К посту приложен датасет: 458 участников, 342 человеческих прохождения 25 публичных сред, 90-минутные сессии в Сан-Франциско. Средний человек решает ARC-AGI-3 на 49,14%. Ни одна известная AI-модель пока не приближается к этому числу.

Что такое ARC-AGI-3

ARC-AGI-3 — это 135 интерактивных абстрактных сред. Каждая — маленькая игра с правилами, которые тест-тейкеру (человеку или AI) никто не объясняет. Нужно догадаться самому: что делают клавиши, какая цель, как устроены уровни.

Дизайн бенчмарка жёсткий. Каждая среда должна быть решаема человеком без предварительной подготовки. Ни человек, ни модель не получают инструкций — только системный промпт с перечислением доступных действий. Никто не знает, что это тест AGI. Тест проходит в «режиме первого запуска»: один участник видит среду один раз и имеет одну попытку. Это измеряет не способность повторить выученное решение, а способность адаптироваться к новому.

Как проводили исследование

Фонд ARC Prize арендовал тестовый центр в Сан-Франциско и проводил еженедельные очные фокус-группы. Критично: участникам не говорили, что это исследование по AGI. В помещении не было упоминаний ARC Prize Foundation.

Выборка — общая популяция. Разный уровень образования, доход, возраст, сферы работы. Сессия длилась 90 минут. Базовая оплата — около $130, плюс $5 за каждую пройденную среду. 458 участников, 342 записанных реплея по 25 публичным средам.

Результат — датасет, который теперь открыт. Каждая среда пройдена как минимум двумя независимыми людьми. Большинство сред — гораздо большим числом. Это «квитанция», как выражается ARC Prize: 100% сред решаемы людьми.

Внутри разброс велик. Среду r11l прошли все 10 из 10 участников. bp35 — только 2 из 14. tr87 — 6 из 12. В некоторых случаях блокирующий уровень — второй: например, в среде cd82 2 из 11 не смогли пройти второй уровень, но те, кто прошёл, обычно добегали до конца. Это говорит о «крутой кривой онбординга», а не об общей сложности задачи.

Новая методика скоринга

Пока собирали данные, фонд обнаружил два дефекта в первоначальной методике. Их исправили с этим релизом.

Первый дефект — «фактор удачи». В некоторых средах ранние решения могли заблокировать игрока от оптимального пути вне зависимости от того, насколько хорошо он играл дальше. Предыдущий бейзлайн считался по второму лучшему человеческому результату — это делало скор слишком чувствительным к одной удачной попытке. Теперь бейзлайн — медианный результат на уровень. Один аномально эффективный человек больше не определяет планку.

Второй дефект — жёсткий потолок 100% на уровень. Тест-тейкер мог обогнать человеческий бейзлайн на всех уровнях кроме одного — и получить общий скор ниже 100% из-за одного провала. Потолок подняли до 115% на уровень, чтобы хорошее генерализование не штрафовалось за единичный косяк.

Суммарный эффект — небольшой рост скоров и для людей, и для AI (+0,5 п.п. в среднем). Средний человеческий балл по новой методике — 49,14%.

Что это значит для AI

Точка отсчёта для бенчмарка — это не «порог AGI», а планка, от которой считают всё остальное. Когда в списке лидеров появится модель с результатом 49,14% — она сравнялась с медианным обычным человеком без подготовки. Пока таких моделей нет.

Для сравнения, ARC-AGI-2 — предыдущая версия бенчмарка — уже взята топовыми моделями. Gemini 3 Deep Think показал 84,6%, Claude Opus 4.6 — 37%. Но ARC-AGI-2 критиковали за «иллюзию прогресса»: после того как в феврале поменяли формат отображения задач, часть результатов оказалась хуже, чем казалось. ARC-AGI-3 призван устранить эту проблему за счёт интерактивности и механики «первого запуска».

БенчмаркТип задачЛучший AIСредний человек
ARC-AGI-2Статические паттерны84,6% (Gemini 3 Deep Think)~60%
ARC-AGI-3Интерактивные средыПока ниже 49%49,14%

Что измеряет ARC-AGI-3 на самом деле

Франсуа Шолле, создатель бенчмарка, называет метрику «skill-acquisition efficiency» — эффективность приобретения навыка. Суть в том, что интеллект — не «сколько навыков ты умеешь», а «насколько быстро ты осваиваешь новый навык с нуля».

Эффективность измеряется в действиях. Если уровень можно пройти за 40 действий, а вы уложились в 35 — вы эффективнее медианного человека на 14%. Это даёт числовую оценку того, что мы обычно называем «сообразительностью».

Для LLM это больное место. Большие модели хорошо работают там, где задача похожа на виденное во время тренировки. Интерактивные среды с неизвестными правилами — прямо противоположный кейс. Модели приходится выстраивать гипотезу, проверять её действием, получать обратную связь и корректировать поведение — ровно тот цикл, которому человеческий мозг учится в первые годы жизни.

Что дальше

ARC Prize 2026 будет работать на ARC-AGI-3. Конкурс 2025 года на ARC-AGI-2 собрал 1455 команд и 90 научных статей. В этом году задача сложнее, но и приз больше.

Открытый датасет человеческих прохождений — это инструмент для исследователей. Теперь можно анализировать, как именно люди решают задачи: сколько действий тратят, где застревают, какие стратегии работают. Это даёт материал для создания агентов, которые не просто перебирают варианты, а строят гипотезы.

Прогноз Шолле консервативный. Пока разрыв между медианным человеком и лучшей моделью на ARC-AGI-3 измеряется десятками процентных пунктов, об AGI говорить рано. Сам по себе этот бенчмарк — не тест AGI. Он — измеритель разрыва. Пока разрыв есть — AGI нет.

Похожие новости

Листайте вниз

для загрузки следующей статьи