GPT-5.2 Pro побил рекорд на сложнейших математических задачах
Модель OpenAI набрала 31% на FrontierMath Tier 4 — это почти вдвое больше предыдущего рекорда Gemini 3 Pro (19%).

31% против 19%. GPT-5.2 Pro установил новый рекорд на самом сложном уровне математического бенчмарка FrontierMath, обойдя предыдущего лидера Gemini 3 Pro почти вдвое. Результаты опубликовала исследовательская организация Epoch AI 23 января.
Что показали тесты
FrontierMath Tier 4 — это 48 задач уровня научных исследований, составленных действующими математиками. До этого запуска любая AI-модель решала максимум 13 из них. GPT-5.2 Pro справился с 15, причём 4 задачи были решены впервые в истории.
Интересная деталь: тестирование проводили вручную через сайт ChatGPT, потому что API давал таймауты. Epoch AI пришлось отказаться от автоматизированного scaffold и вводить задачи руками.
OpenAI имеет эксклюзивный доступ к решениям 28 задач из 48. Остальные 20 Epoch держит в секрете для проверки на переобучение. Результаты показательны: на «известных» задачах модель набрала 18%, на «секретных» — 50%. Это говорит о том, что GPT-5.2 Pro действительно решает задачи, а не воспроизводит запомненные ответы.
Реакция математиков
Несколько авторов задач оценили решения модели.
Джоэл Хасс, специалист по низкоразмерной топологии, предложил усложнённую формулировку своей задачи после того, как GPT-5.2 Pro решил оригинальную. Модель справилась и с ней.
Кен Оно, теоретик чисел, дал решению «в целом положительную оценку», хотя отметил недостаток строгости в текстовых пояснениях. Дэн Ромик, ещё один теоретик чисел, был впечатлён.
При этом некоторые задачи остаются нерешёнными. Один из авторов считает, что модели делают «правдоподобные допущения» вместо того, чтобы их доказывать — именно на этом этапе они и ошибаются.
Сравнение с другими моделями
| Модель | FrontierMath Tier 4 |
|---|---|
| GPT-5.2 Pro | 31% |
| Gemini 3 Pro | 19% |
| GPT-5.2 xhigh | 17% |
| GPT-5 Pro | ~14% |
Скачок с 19% до 31% — это не инкрементальное улучшение. Модель решила задачи, которые не поддавались ни одной предыдущей системе.
Что это значит
Математическое рассуждение долго считалось слабым местом языковых моделей. FrontierMath специально создавался как «непробиваемый» бенчмарк — задачи требуют часов работы даже от профессиональных математиков.
Результат GPT-5.2 Pro показывает, что разрыв сокращается быстрее, чем ожидалось. Впрочем, Теренс Тао, один из ведущих математиков мира, предупреждает против преждевременных выводов: успех на отдельных задачах говорит больше о скорости перебора, чем о глубине понимания.
GPT-5.2 Pro доступен пользователям ChatGPT Pro ($200/мес). API пока работает нестабильно из-за высокой нагрузки.


