Почему GPT-5 не может решить задачу для трёхлетки

Новый бенчмарк BabyVision показал, что лучшие мультимодальные модели проваливаются на визуальных задачах, которые легко решают дети.

Команда из 29 исследователей задала простой вопрос: могут ли современные AI-модели видеть так же, как трёхлетний ребёнок? Ответ оказался обескураживающим — нет, не могут. И дело не в сложных математических задачах или философских вопросах. Речь о базовых визуальных навыках: найти отличия на картинках, пройти лабиринт взглядом, понять, как выглядит развёрнутый куб.

Что такое BabyVision

10 января исследователи из UniPat-AI опубликовали новый бенчмарк под названием BabyVision. Идея проста: если мультимодальные модели (MLLM) уже сдают экзамены на уровне PhD, пора проверить, владеют ли они базовыми визуальными навыками, которые дети осваивают задолго до того, как учатся читать.

Бенчмарк содержит 388 уникальных вопросов, разбитых на 22 подкатегории в четырёх основных областях. Первая — точное различение: найти одинаковые или разные элементы, определить тени, распознать паттерны. Вторая — визуальное отслеживание: пройти лабиринт, проследить переплетающиеся линии, разобраться в схеме метро. Третья — пространственное восприятие: понять, как объект выглядит с другой стороны, представить развёртку куба, сосчитать кубики в 3D-конструкции. Четвёртая — распознавание визуальных паттернов: продолжить последовательность, найти закономерность.

Все эти задачи не требуют никаких специальных знаний — только способность видеть и понимать то, что видишь.

Результаты шокируют

Лучший результат среди всех протестированных моделей показала Gemini 3 Pro Preview — 49,7%. Это меньше, чем у среднего шестилетнего ребёнка, и почти вдвое ниже результата взрослого человека (94,1%).

Модель	Результат
Средний взрослый	94,1%
6-летний ребёнок	>49,7%
Gemini 3 Pro Preview	49,7%
GPT-5.2	34,4%
Doubao-Seed-1.8	30,2%
Qwen3-VL-Plus	19,2%
Grok-4	16,2%
Claude 4.5 Opus	14,2%

GPT-5.2 набрала 34,4% — это треть от результата взрослого человека. Claude 4.5 Opus, несмотря на впечатляющие способности в текстовых задачах, показала всего 14,2%. Grok-4 от xAI — 16,2%. Даже китайские модели, которые в последнее время демонстрируют прорывы, здесь не блещут: Qwen3-VL-Plus набрала 19,2%.

Особенно интересно сравнение с детьми. Шестилетний ребёнок справляется с BabyVision лучше, чем любая существующая мультимодальная модель. А ведь эти модели обучены на миллиардах изображений и стоят миллионы долларов в разработке.

Почему это происходит

Авторы исследования указывают на фундаментальную проблему: современные MLLM слишком сильно полагаются на языковые паттерны, чтобы компенсировать слабое визуальное понимание. Они отлично справляются с задачами, где можно «угадать» ответ по контексту или где достаточно описать увиденное словами. Но когда нужно именно видеть — отслеживать линии, сравнивать формы, представлять трёхмерные объекты — модели теряются.

Люди развивают базовые визуальные навыки задолго до того, как начинают говорить. Младенцы учатся отслеживать движущиеся объекты, различать лица, понимать глубину. Эти способности формируются в первые месяцы жизни и становятся фундаментом для всего последующего визуального восприятия.

У нейросетей такого фундамента нет. Они учатся «видеть» одновременно с тем, как учатся «говорить», и второе часто подменяет первое. Модель может правильно описать картинку, но при этом не понимать её на том уровне, который позволил бы пройти простой лабиринт.

Что это значит для индустрии

Результаты BabyVision ставят под вопрос заявления о «человеческом уровне» мультимодальных моделей. Да, они могут сдавать экзамены, писать код, анализировать графики. Но базовое визуальное восприятие — то, что даёт нам возможность ориентироваться в мире, — у них отсутствует.

Для практических приложений это означает ограничения. Автономные системы, которые должны понимать окружающую среду. Медицинская диагностика, где важно увидеть мелкие отличия на снимках. Робототехника, где нужно отслеживать объекты в реальном времени. Везде, где требуется именно видеть, а не описывать увиденное, современные модели будут буксовать.

Исследователи предлагают использовать BabyVision как индикатор прогресса в этом направлении. Пока лучшие модели не преодолеют хотя бы планку шестилетнего ребёнка, говорить о полноценном визуальном интеллекте преждевременно.

Что дальше

Команда UniPat-AI выложила бенчмарк в открытый доступ вместе с инструментами для тестирования. Любой исследователь или компания может проверить свою модель. Также представлен BabyVision-Gen — версия для оценки генеративных моделей изображений.

BabyVision напоминает о том, что прогресс в AI неравномерен. Модели научились решать сложные интеллектуальные задачи, но простые визуальные навыки — те, что дети осваивают играючи — остаются для них вызовом. Возможно, именно здесь лежит следующий рубеж развития мультимодального искусственного интеллекта.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Почему GPT-5 не может решить задачу для трёхлетки

Что такое BabyVision

Результаты шокируют

Почему это происходит

Что это значит для индустрии

Что дальше

Похожие новости

ChatGPT и Claude начали цитировать Grokipedia — AI-энциклопедию Маска

OpenAI запускает рекламу в ChatGPT: Альтман сдался

Сэм Альтман инвестирует в редактирование генов эмбрионов