OpenAI заявила о решении 6 из 10 задач First Proof — математики сомневаются

Внутренняя модель OpenAI якобы решила 6 фронтирных математических задач проекта First Proof. Но независимые эксперты уже нашли дыры в доказательствах.

Шесть из десяти. Именно столько решений математических задач проекта First Proof, по словам OpenAI, «имеют высокую вероятность быть корректными». Звучит как прорыв — необученная на этих задачах модель якобы справилась с исследовательскими проблемами, которые до сих пор решали только их авторы. Но за громким заявлением главного научного офицера Якуба Пахоцки скрывается куда более сложная картина.

Что такое First Proof

5 февраля 2026 года 11 ведущих математиков мира — среди них лауреат Филдсовской премии Мартин Хайрер и профессор Йельского университета Дэниел Шпильман — опубликовали набор из десяти исследовательских задач. Не олимпиадных, не из учебников — настоящих лемм, возникших в ходе собственных научных работ авторов.

Задачи охватывают алгебраическую комбинаторику, спектральную теорию графов, стохастический анализ, симплектическую геометрию и другие области. Каждая имеет доказательство длиной около пяти страниц, но ни одно из них не было опубликовано. Ответы зашифровали и выложили онлайн — дешифровка была назначена на 13 февраля.

Идея принадлежит профессору Стэнфорда Мохаммеду Абузейду и профессору Техасского университета Рейчел Уорд. Как объяснил Хайрер: «Это способ для математиков вернуть себе нарратив о том, может ли AI решать задачи, которые действительно важны для математики».

Недельный спринт и заявление OpenAI

AI-сообществу дали неделю — с 5 по 13 февраля — на решение задач. Участвовать мог кто угодно: от любителей с ChatGPT до исследовательских лабораторий с закрытыми моделями.

OpenAI отнеслась к вызову серьёзно. Компания организовала недельный спринт с использованием новейших внутренних моделей и привлечением математиков-экспертов для обратной связи. 14 февраля Якуб Пахоцки написал в соцсетях, что их команда считает шесть из десяти решений корректными.

Но формулировка «имеют высокую вероятность быть корректными» — это не то же самое, что «доказано». И здесь начинаются вопросы.

Что показала проверка

Когда 14 февраля авторы First Proof раскрыли ответы, картина оказалась менее впечатляющей, чем заявления OpenAI. По данным Scientific American, сами создатели теста обнаружили, что AI корректно решил только две задачи из десяти — девятую и десятую. Причём доказательство, почти идентичное решению девятой задачи, уже существовало в открытом доступе.

Была и проблема «загрязнения данных»: набросок решения первой задачи оказался заархивирован на сайте Мартина Хайрера, но даже с этой подсказкой языковые модели не смогли заполнить пробелы в доказательстве.

Что касается остальных попыток — по словам Scientific American, «подавляющее большинство представленных решений оказались очень убедительной бессмыслицей». Модели уверенно генерировали доказательства для каждой задачи, но лишь малая часть из них выдерживала проверку.

Ключевой вопрос: сколько помощи от людей

Отдельная проблема — роль человеческого участия. OpenAI прямо указала, что использовала «экспертную обратную связь» от математиков. Но грань между «AI решил задачу при помощи человека» и «человек решил задачу при помощи AI» в таком формате провести практически невозможно.

Организаторы First Proof просили участников делиться полными транскриптами взаимодействия с AI-системами — именно для того, чтобы понять, где проходит эта граница. Но в условиях гонки за результатом прозрачность неизбежно страдает.

Математик Теренс Тао, проанализировавший результаты на своей GitHub-странице, насчитал восемь задач, где AI-модели сделали «значимый автономный прогресс» на задачах Эрдёша, и ещё шесть случаев, где прогресс был достигнут за счёт нахождения и развития предыдущих исследований. Его вывод: до полностью автономного математического AI ещё далеко, но модели уже играют важную роль.

Зачем это всё

First Proof — это не просто тест. Это попытка создать методологию оценки AI на задачах, которые действительно важны для науки. До сих пор бенчмарки вроде MATH или GSM8K измеряли способность решать уже решённые задачи. FrontierMath от Epoch AI пошёл дальше с нерешёнными проблемами, но First Proof добавил критический элемент — задачи, решения которых известны только их авторам.

Параллельно Epoch AI запустил собственный бенчмарк FrontierMath: Open Problems — 14 нерешённых математических проблем, от «умеренно интересных» до «прорывных». AI уже решил четыре из них, включая адаптацию доказательства иррациональности дзета-функции Апери к другим константам.

Для AI-индустрии результаты First Proof — отрезвляющий сигнал. GPT-5.2, который Нил Сомани описывает как «анекдотически более способный к математическому рассуждению, чем предыдущие итерации», действительно может помогать в исследованиях. Но до замены математиков — если это вообще возможно — ещё очень далеко.

Что дальше

Создатели First Proof планируют через несколько месяцев выпустить второй набор задач, уже с учётом опыта первого раунда. Они хотят формализовать формат оценки: что считать решением, как оценивать роль человека, как бороться с утечкой данных.

Главный урок первого раунда — AI-модели научились генерировать убедительные, но часто ошибочные математические рассуждения. Отличить настоящее доказательство от «очень убедительной бессмыслицы» пока могут только эксперты. И это, пожалуй, главный аргумент за то, что математикам стоит внимательно следить за развитием AI — но пока не беспокоиться о потере работы.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

OpenAI заявила о решении 6 из 10 задач First Proof — математики сомневаются

Что такое First Proof

Недельный спринт и заявление OpenAI

Что показала проверка

Ключевой вопрос: сколько помощи от людей

Зачем это всё

Что дальше

Похожие новости

GPT-5.2 Pro вывела формулу, которую физики искали 15 лет

ByteDance бросает вызов GPT-5.2: что умеет Doubao Seed 2.0

Есть ли смысл в локальных LLM, когда облако уходит в отрыв?