50% на FrontierMath: GPT-5.4 берёт рубеж, который казался недостижимым

GPT-5.4 Pro набрал 50% на тирах 1–3 и 38% на Тире 4 бенчмарка FrontierMath — первая победа AI над задачами уровня исследовательской математики. Разбираем что произошло.

В конце 2024 года Epoch AI выпустили бенчмарк FrontierMath и протестировали на нём все флагманы того времени — GPT-4o, o1, Claude 3.5 Sonnet, Gemini 1.5 Pro. Ни одна модель не преодолела 2%. Это был недвусмысленный сигнал: высшая математика пока недоступна для машин. Полтора года спустя GPT-5.4 набирает 50%.

Что такое FrontierMath

FrontierMath — не очередной тест на "общие знания". Это несколько сотен оригинальных, ранее нигде не публиковавшихся задач, которые составили профессиональные математики. Задачи охватывают большинство разделов современной математики: теорию чисел, вещественный анализ, алгебраическую геометрию, теорию категорий и другие области.

Бенчмарк разделён на уровни. Тиры 1–3 — от уровня хорошего студента до ранней постдокторантуры. Тир 4 — исследовательская математика: типичная задача занимает у профессора несколько часов или несколько дней работы. Отдельная категория — Open Problems, задачи, которые "устояли перед серьёзными попытками профессиональных математиков".

Задачи намеренно не публикуются в открытом доступе, чтобы исключить попадание в обучающие данные. Решение верифицируется автоматически — по итоговому числу или объекту, а не по ходу рассуждения. Бенчмарк поддержали Fields-медалисты Теренс Тао, Тимоти Гауэрс и Ричард Борчердс.

От 2% к 50%: как менялся рекорд

Два года понадобилось, чтобы пройти от полного провала до половины задач уровня постдока. Прогресс был нелинейным:

Модель	Тир 1–3	Тир 4
GPT-4o, o1, Claude 3.5 Sonnet (конец 2024)	менее 2%	менее 2%
o3 (начало 2025)	~25%	—
Gemini 3 Pro (предыдущий рекорд)	—	19%
GPT-5.2 Pro	>40%	31%
GPT-5.4 Pro	50%	38%

GPT-5.4 Pro был оценён командой Epoch AI до публичного релиза 5 марта 2026 года. По тирам 1–3 модель набрала 52% на обычном наборе и 42% на закрытом (held-out) — том, который OpenAI не видит при обучении. Небольшой разрыв между двумя наборами говорит о том, что результат нельзя списать на "заучивание".

На Тире 4 картина интереснее: 25% на обычном наборе и неожиданно высокие 55% на закрытом. По десяти дополнительным запускам (Pass@10) Тир 4 дал в среднем 38%.

Детектив с препринтом

Один из решённых задач Тира 4 раскрыл неожиданную деталь о природе GPT-5.4. Модель нашла препринт 2011 года — малоизвестную публикацию, о существовании которой не знал даже сам автор задачи. Используя найденный результат, GPT-5.4 "срезала" большую часть предполагаемого пути к решению.

Это не жульничество: модель использовала легитимный математический результат, который просто оказался незнаком составителю задачи. Но эпизод хорошо иллюстрирует, с чем именно приходится соревноваться: не с изолированным человеком, а с системой, у которой доступ ко всей доступной литературе.

Открытые задачи — пока без прорывов

Open Problems остались нетронутыми. GPT-5.4 сгенерировала некоторые наблюдения, но один из авторов задач охарактеризовал их как "наблюдения, которые мы уже предвидели и считаем относительно неинтересными".

Это важная точка отсчёта для понимания масштаба прорыва: 50% на аспирантских и постдокторских задачах — да. Решение задач, над которыми профессиональные математики работают годами, — пока нет. Эти рубежи разные.

Предупреждение Теренса Тао

Поля-медалист, поддержавший FrontierMath, призвал не торопиться с выводами. По его мнению, результаты отражают прежде всего скоростное преимущество модели, а не то, что истинная сложность задач преодолена. Разница между "решить за 10 секунд" и "понять" с его точки зрения остаётся принципиальной.

Это честная оговорка, которая работает в обе стороны: математика — одна из немногих областей, где правильность решения можно проверить формально, и GPT-5.4 решает правильно. Причины этой правильности — отдельный философский вопрос.

Что это меняет

Для исследований в математике это означает, что у учёных появляется инструмент, способный самостоятельно пробовать нетривиальные пути к доказательству или поиску контрпримеров. Не замена математику, но полноценный соавтор в задачах перебора и проверки гипотез.

В феврале 2026 года отдельный эксперимент на 1stproof.org показал, что ведущие AI-системы решают 5 из 10 настоящих неопубликованных лемм от действующих математиков. Математическое сообщество отреагировало "смесью восхищения и растерянности" — что само по себе показательно.

Следующий рубеж — Open Problems, настоящие открытые проблемы. Пока AI их не берёт. Но именно с такого же 0% FrontierMath начинался для всех моделей в 2024 году.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

50% на FrontierMath: GPT-5.4 берёт рубеж, который казался недостижимым

Что такое FrontierMath

От 2% к 50%: как менялся рекорд

Детектив с препринтом

Открытые задачи — пока без прорывов

Предупреждение Теренса Тао

Что это меняет

Похожие новости

OpenAI заявила о решении 6 из 10 задач First Proof — математики сомневаются

GPT-5.4 Pro за 80 минут решил проблему Эрдёша, над которой бились 58 лет

Интеллект на счётчике: Альтман хочет продавать разум как воду