Смена шрифта ломает AI-модели — что не так с ARC-AGI-2?

Простое изменение шрифта обрушивает результаты моделей на ARC-AGI-2. Claude Opus 4.6 набирает 37%, Gemini 3 Deep Think — 84.6%. Горячая дискуссия о том, измеряют ли бенчмарки реальный интеллект.

Что, если результат AI-модели на бенчмарке можно обрушить, просто поменяв шрифт? Именно этот вопрос взорвал дискуссию на Reddit (Score 222, 102 комментария) и заставил сообщество заново задуматься: измеряем ли мы реальный интеллект или учим модели играть в конкретную игру?

Контекст: цифры, которые впечатляют

Google недавно обновила Gemini 3 Deep Think и представила результаты, которые выглядят как разрыв поколений:

Бенчмарк	Gemini 3 Deep Think	Claude Opus 4.6	GPT-5.2
ARC-AGI-2	84,6%	~37%	~35%
HLE (без инструментов)	48,4%	—	—
MMMU-Pro	81,5%	—	—
Codeforces Elo	3455	—	—

На первый взгляд — триумф. Gemini набирает вдвое больше Claude Opus 4.6 на ARC-AGI-2. Но дьявол, как всегда, в деталях.

Проблема со шрифтом

На Reddit пользователи обратили внимание на неожиданный эффект: простое изменение шрифта, которым отображаются визуальные паттерны в задачах ARC-AGI-2, существенно меняет результаты моделей. Если бы система по-настоящему «понимала» абстрактные закономерности — цвета, формы, правила трансформации — шрифт не должен иметь значения. Но он имеет.

Это подрывает саму идею бенчмарка. ARC-AGI-2 задумывался как тест на абстрактное мышление — способность выводить правила из нескольких примеров и применять их к новым ситуациям. Франсуа Шолле создавал его как противовес заучиванию, как задачу, которую нельзя решить запоминанием. Но если модель ломается от косметического изменения, она, вероятно, опирается на поверхностные признаки, а не на глубокое понимание.

Почему Gemini всё равно лидирует

Справедливости ради, результат Gemini 3 Deep Think впечатляет даже с этой оговоркой. 84,6% — это не случайность и не подгонка под тест. Модель использует режим Deep Think — расширенное рассуждение, при котором система тратит значительно больше вычислительных ресурсов на каждую задачу. По сути, это обмен скорости на качество, и Google явно вложила серьёзные усилия в оптимизацию именно этого режима.

Но комментаторы справедливо отмечают: а не оптимизирована ли модель конкретно под формат ARC-AGI-2? Когда один бенчмарк становится главным мерилом «интеллекта», у компаний появляется мощный стимул оптимизировать именно под него. Это не обман — это рациональная стратегия, но она размывает диагностическую ценность теста.

Методологическая ловушка

Проблема глубже, чем один бенчмарк. Как отметил автор аналитического разбора на Medium, понятие «прогресса» становится неразрывно связано со способами измерения. Pass@1 или Pass@2? Публичный или полуприватный сплит? С инструментами или без? Модель-судья или человеческая оценка? Каждый из этих выборов меняет итоговые цифры, а компании, естественно, выбирают конфигурацию, в которой выглядят лучше.

Google сама указывает в оценочном PDF, что результаты конкурентов взяты из «самостоятельно опубликованных данных провайдеров». Это честно — но сравнивать числа, полученные в разных условиях, рискованно.

Старые тесты вроде теста Тьюринга давно утратили смысл — современные модели проходят их играючи. Новые бенчмарки должны были стать более надёжными. Но ARC-AGI-2, при всей своей элегантности, начинает демонстрировать те же симптомы: модели учатся «проходить тест», а не решать задачу, которую тест должен проверять.

Что это значит для пользователей

Для разработчиков и бизнеса из этого следует простая мысль: не выбирайте модель по одному бенчмарку. Claude Opus 4.6 набирает вдвое меньше Gemini на ARC-AGI-2, но это не значит, что он вдвое хуже в реальных задачах. В кодинге, анализе документов и длинном контексте разница может быть обратной.

Бенчмарки полезны как сигнал, а не как вердикт. Они показывают общее направление — какие модели становятся лучше и в каких областях. Но принимать решения на основе одного числа — всё равно что выбирать автомобиль по максимальной скорости: формально верно, практически бесполезно.

Выводы

Ситуация с ARC-AGI-2 и шрифтами — это не скандал и не разоблачение. Это здоровое напоминание о хрупкости текущих метрик. AI-модели стремительно улучшаются, и Gemini 3 Deep Think действительно демонстрирует впечатляющие способности к рассуждению. Но пока смена шрифта может обрушить результат, мы точно не измеряем то, что думаем.

Индустрии нужны бенчмарки следующего поколения — устойчивые к косметическим изменениям, тестирующие перенос знаний, а не распознавание знакомых паттернов. До тех пор цифры на лидербордах стоит воспринимать с долей здорового скептицизма.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Смена шрифта ломает AI-модели — что не так с ARC-AGI-2?

Контекст: цифры, которые впечатляют

Проблема со шрифтом

Почему Gemini всё равно лидирует

Методологическая ловушка

Что это значит для пользователей

Выводы

Похожие новости

AI выбирает ядерное оружие в 95% военных симуляций

14,5 часов автономного кодинга: Opus 4.6 продолжает экспоненту METR

Google Nano Banana 2 — генерация изображений на скорости Flash