GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
cholletarc-agibenchmarkintelligenceresearch

Франсуа Шолле: интеллект имеет предел оптимальности, и ARC-AGI-3 это докажет

Создатель Keras и бенчмарка ARC-AGI представил третью версию теста на подвижный интеллект. Призовой фонд — $1 млн. Лучшие модели набирают 3-4% там, где справляется ребёнок.

Влад МакаровВлад Макаровпроверил и опубликовал
8 мин чтения
Франсуа Шолле: интеллект имеет предел оптимальности, и ARC-AGI-3 это докажет

Может ли AI с «десятью тысячами IQ» существовать в принципе? Франсуа Шолле — человек, создавший фреймворк Keras и один из самых цитируемых бенчмарков для оценки интеллекта — считает, что нет. 29 марта он опубликовал тезис, который вызвал бурную дискуссию в сообществе: интеллект — это не бесконечная шкала, а коэффициент конверсии с верхней границей оптимальности. А чтобы подкрепить слова делом, фонд ARC Prize выпустил третью версию бенчмарка ARC-AGI — с призовым фондом в миллион долларов.

Интеллект как коэффициент, а не как число

Шолле сформулировал свою позицию предельно ёмко: «Одно из самых больших заблуждений людей об интеллекте — что это какая-то линейная, неограниченная величина. "Будущий AI будет иметь 10 000 IQ" и всё в таком духе. Интеллект — это коэффициент конверсии с границей оптимальности».

Пост собрал 143 голоса и 108 комментариев на r/singularity — для теоретического заявления об ограничениях AI это показатель того, насколько тема задевает за живое. Сообщество раскололось: одни увидели в этом давно назревшую трезвость, другие — попытку навязать потолок технологии, которая только набирает обороты.

Суть тезиса Шолле в том, что интеллект — это не «сколько ты знаешь», а «насколько эффективно ты можешь рекомбинировать знания в новых ситуациях». Модели GPT-уровня обладают энциклопедическим объёмом знаний, но их «способность рекомбинировать эти знания на лету при решении тестовых задач» остаётся крайне низкой. Знание и интеллект — разные вещи, и AI-индустрия систематически путает одно с другим.

От ARC-AGI-1 к ARC-AGI-3: история разочарований

Бенчмарк ARC (Abstraction and Reasoning Corpus) Шолле создал ещё в 2019 году как тест на подвижный интеллект — способность решать задачи, которых ты никогда раньше не видел. Не припоминать ответ из обучающей выборки, а рассуждать на месте.

Первая версия, ARC-AGI-1, какое-то время казалась неприступной. Потом OpenAI выпустила модель o3, которая набрала от 75 до 87% — впечатляющий результат, который многие восприняли как доказательство прогресса. Но Шолле утверждает, что OpenAI потратила «десятки миллионов долларов» вычислительных ресурсов на тренировку конкретно под этот бенчмарк. Модель не стала умнее — она научилась сдавать конкретный экзамен.

Когда вышел ARC-AGI-2 с обновлёнными задачами, те же модели обрушились до 3-4%. Падение с 87% до 4% — это не небольшая деградация, это катастрофа, которая показывает, что «прохождение бенчмарка» и «обладание интеллектом» — совершенно разные вещи.

Именно здесь Шолле вводит термин, который стал неофициальным диагнозом индустрии: benchmaxxing. Компании оптимизируют модели под конкретные тесты — подтягивают обучающие данные, настраивают промпты, увеличивают compute — вместо того чтобы решать фундаментальную проблему: научить AI действительно думать.

Что такое ARC-AGI-3

Третья версия бенчмарка, анонсированная фондом ARC Prize Foundation (основанным Шолле совместно с Майком Кнупом, сооснователем Zapier), включает более тысячи сценариев, напоминающих простые видеоигры. Задачи спроектированы так, чтобы требовать подвижного интеллекта — рассуждения на лету, а не извлечения из памяти.

Каждый сценарий — это визуальная головоломка с паттерном, который нужно распознать и применить к новой ситуации. Ребёнок справляется с большинством из них интуитивно. Лучшие языковые модели мира — нет. Шолле формулирует это так: «Когда самые продвинутые AI-системы в тупике, но ребёнок справляется — это большой красный мигающий сигнал».

Призовой фонд составляет миллион долларов, и это не просто маркетинговый жест. Предыдущие версии ARC действительно стимулировали исследования: десятки команд пытались взломать бенчмарк, и каждая неудача генерировала полезные данные о том, чего именно не хватает современным архитектурам.

Почему OpenAI согласна с Шолле

Показательно, что Ноам Браун из OpenAI публично поддержал тезис Шолле. «Есть важные аспекты, в которых AI по-прежнему уступает человеческому интеллекту», — написал он. Это не дежурная вежливость — это признание от компании, которая потратила те самые «десятки миллионов» на ARC-AGI.

Позиция Брауна отражает внутреннюю дискуссию, которая идёт во всех крупных лабораториях: scaling laws работают для запоминания и обобщения в рамках распределения обучающих данных, но не для настоящей абстракции. Можно увеличить модель в десять раз, и она будет лучше отвечать на вопросы, похожие на те, что видела при обучении. Но дайте ей задачу, принципиально отличающуюся от обучающего распределения, — и размер перестаёт помогать.

Это неудобная правда для индустрии, которая привлекла сотни миллиардов долларов инвестиций на обещании экспоненциального прогресса.

Дебаты о потолке

Критики Шолле указывают на то, что его фреймворк может быть слишком узким. Подвижный интеллект — важная метрика, но далеко не единственная. Модели, которые «проваливают» ARC-AGI, при этом пишут код, анализируют научные статьи и ведут сложные диалоги на уровне, недоступном большинству людей.

Есть и более фундаментальное возражение: утверждать о «границе оптимальности» для интеллекта — значит экстраполировать из текущего состояния технологии. Нейронные сети в их нынешнем виде, возможно, действительно упёрлись в потолок абстракции. Но это потолок архитектуры, а не интеллекта как явления.

Шолле, впрочем, говорит не только о текущих моделях. Его тезис более радикален: даже теоретически совершенный интеллект — биологический или искусственный — имеет верхнюю границу эффективности при работе с ограниченной информацией. Это не баг, это фундаментальное свойство, следующее из теории информации.

Что это значит для индустрии

Дискуссия вокруг Шолле — не академическая абстракция. Она напрямую влияет на то, куда потекут деньги в ближайшие годы. Если интеллект действительно ограничен сверху, то бесконечное масштабирование моделей — тупик. Нужны принципиально новые архитектуры, способные к настоящей абстракции, а не к всё более изощрённому запоминанию.

Для разработчиков это означает, что полагаться на прогресс «из коробки» — рискованная стратегия. Модели станут дешевле и быстрее, но не обязательно умнее в том смысле, который имеет значение для сложных задач. Инженерия промптов и RAG-системы останутся критически важными — именно потому, что они компенсируют то, чего модели по-прежнему не умеют.

ARC-AGI-3 станет лакмусовой бумажкой. Если в течение года ни одна модель не покажет значительного прогресса на этом бенчмарке, это будет серьёзным аргументом в пользу тезиса Шолле. Если кто-то взломает его без benchmaxxing-а — значит, прорыв в абстрактном рассуждении всё-таки возможен.

Выводы

Шолле занимает уникальную позицию в AI-сообществе: он одновременно практик (Keras используется миллионами разработчиков) и теоретик, который не боится спорить с консенсусом. Его тезис об ограниченности интеллекта — не пессимизм, а попытка перенаправить ресурсы с количественного масштабирования на качественный прорыв.

ARC-AGI-3 с его тысячей видеоигровых сценариев и миллионным призом — это конкретный инструмент для проверки. Не абстрактный спор о природе разума, а измеримый тест: способен ли AI рассуждать так, как это делает человек? Пока ответ — нет. И пока этот ответ не изменится, разговоры о «десяти тысячах IQ» останутся тем, чем они являются — маркетингом.

Похожие новости

Листайте вниз

для загрузки следующей статьи