«Угадывание следующего слова — это и есть настоящее понимание»

Тезис Ильи Суцкевера о том, что предсказание следующего токена приводит к реальному пониманию мира, снова на острие — детективная метафора и почему критики называют это «софизмом».

«Представьте, что вы читаете детективный роман. Все улики, имена, мотивы, отношения, события. На последней странице сыщик собирает их всех вместе и говорит: убийца — этот человек. Чтобы предсказать следующее слово в этой фразе, модель должна по-настоящему понимать книгу».

— Илья Суцкевер, ноябрь 2025

Эта метафора снова всплыла в обсуждениях на этой неделе — короткий клип из его интервью Дворкешу набрал больше двух миллионов просмотров на Reddit и X, и вокруг него развернулся новый раунд дискуссии. Для одних — это самое глубокое наблюдение о природе интеллекта за последнее десятилетие. Для других — софизм, который путает корреляцию с пониманием. Третий раунд обсуждения такой же, как первый и второй. И это говорит больше о состоянии индустрии, чем о самом тезисе.

Что именно утверждает Суцкевер

Идея простая на словах. Большая языковая модель тренируется на одной задаче — предсказать следующий токен. Это кажется тривиально: статистика поверх n-грамм. Но если задача охватывает миллиарды контекстов, в каких-то из них правильный ответ требует знания, недоступного из локальной близости слов. Чтобы предсказать следующее слово в детективном романе («убийца — это…»), нужно построить внутреннюю модель сюжета, отношений, мотивов и логики. Нет другого способа сделать это надёжно.

Из этого Суцкевер делает обратный вывод: если модель в среднем точно предсказывает следующий токен, в ней обязана возникнуть некоторая форма понимания мира. Это не философский постулат, это следствие из теоремы об оптимальности: оптимальный предиктор — это и есть сжатое представление мира, в котором эти токены порождаются.

Аргумент элегантный и по-своему сильный. И в течение 2023–2024 годов он был главным интеллектуальным основанием для того, чтобы продолжать масштабировать pretraining на ещё бóльшие объёмы данных и компьюта. Если задача предсказания токенов сама по себе достаточна для возникновения интеллекта, то нужно просто давать модели больше материала и больше FLOPS — и AGI получится сам.

Что произошло в 2025–2026

Сам Суцкевер в декабрьском интервью Дворкешу дополнил картину. Эпоха масштабирования закончилась. По его словам, ещё одно стократное увеличение моделей принесёт улучшение, но не трансформацию. То есть простой формулы «больше данных = больше интеллекта» уже недостаточно. Наступает «эпоха исследований», где нужны качественно новые идеи: непрерывное обучение, лучшие функции ценности в RL, более экономные модели, способные учиться на работе, а не приходить готовыми из претрейна.

Это очень любопытный поворот. Тот же человек, который прославился аргументом «next-token prediction достаточен для понимания», сейчас говорит, что просто масштабирование этого претрейна больше не работает. Противоречия здесь нет — Суцкевер не отказывается от изначального тезиса, он уточняет: понимание возникает, но дальнейший прирост качества требует других механизмов поверх этого.

В Safe Superintelligence (SSI), которой Суцкевер руководит с 2024 года, в это направление и идёт ставка. Согласно анализу Bismarck Brief, компания целится в принципиально иную архитектуру обучения, не в очередную ChatGPT-подобную итерацию. Никаких публичных продуктов, никаких релизов моделей — только исследования.

Контраргумент: предсказание ≠ понимание

Не все согласны. Главный возражение — категориальное. Тот факт, что система научилась хорошо предсказывать следующий токен, не значит, что она «понимает» в человеческом смысле. Она научилась распознавать паттерн. И паттерн, и понимание дают одинаковые ответы на типовые вопросы. Различие проявляется в новизне: способна ли модель экстраполировать в принципиально новые ситуации, ведёт ли себя последовательно при инверсии задачи, сохраняет ли причинную связность.

Андреа Кьярелли формулирует это просто: когда мы заканчиваем фразу «Peter Piper picked a peck…» автоматическим «of pickled peppers» — это не интеллект, это рефлекс. Тренированная нейросеть на детективных романах тоже научится «угадывать убийцу» по статистическим паттернам, без всякой моральной модели мира. И детективные романы как раз очень формульны в этом смысле — есть жанровые правила, повторяющиеся структуры.

Эмпирически это подтверждается каждый раз, когда LLM натыкаются на out-of-distribution задачу. Та же модель, которая разруливает шахматы среднего уровня, валится на простой задаче «посчитай число r в strawberry». Это не «непонимание шахмат», это иллюстрация того, что натренированная статистика и реальное понимание — это разные вещи, хотя в большинстве случаев они дают одинаковый выход.

Что говорят бенчмарки

Парадоксальным образом 2025–2026 годы дали оба подтверждения сразу. С одной стороны:

LLM вышли на «человеческий» уровень в математике (AIME, USAMO)
Решают значимую часть задач MIT и Стэнфордских вступительных экзаменов
Превосходят человека-эксперта на GPQA Diamond
Самостоятельно решают подавляющее большинство SWE-Bench задач

С другой стороны, Суцкевер сам признал в интервью: «исследователи протекают бенчмарки в модели». То есть высокие баллы могут отражать не понимание, а то, что задачи или их близкие аналоги попали в обучающую выборку. Real-world применение моделей в индустрии не растёт пропорционально росту бенчмарок — что само по себе подсказывает, что значительная часть «прогресса» в синтетических тестах — это пересечение распределений.

Это не значит, что LLM не «понимают» в каком-то полезном смысле. Это значит, что термин «понимание» делает слишком много работы в дискуссии. Сами по себе бенчмарки одинаково хорошо объясняются и через «реальное понимание», и через «продвинутое сжатие паттернов». Эмпирически отличить эти две гипотезы пока невозможно.

Почему это снова всплыло именно сейчас

Тезис Суцкевера — четырёхлетней давности. Почему он снова в топе r/singularity и треда обсуждений на этой неделе? Несколько причин.

Первая — выходит вторая часть интервью Дворкеша, и комментаторы перечитывают первую. Это органичный новостной цикл.

Вторая — индустрия уперлась в стену. OpenAI и Anthropic в 2026 году выпускают модели всё чаще, но качественные различия между поколениями становятся всё меньше. Основное направление прогресса — reasoning через длинные цепочки рассуждений и tool-use. Это хорошо вписывается в нарратив Суцкевера про «эпоху исследований», и плохо — в нарратив «продолжаем скейлить претрейн».

Третья — фоновое противостояние двух школ. С одной стороны Суцкевер, Альтман и сторонники «эмерджентного» интеллекта из претрейна. С другой — Лекун, Чомски и многие академические исследователи, утверждающие, что LLM фундаментально ограничены. Каждое новое впечатляющее достижение (Cerebras-инференс, Sonnet 4.6, Claude Opus 4.7) обостряет дискуссию.

Четвёртая — практический интерес. Если правы сторонники Суцкевера, нужно вкладывать в крупные модели и претрейн. Если правы критики — нужны принципиально новые архитектуры (мировые модели, видеомодели, нейросимволика). Триллионы долларов капвложений зависят от того, какая интерпретация правильнее. Поэтому каждый раз, когда выходит интервью с одним из главных представителей школы, оно обсуждается как новость.

Что это значит для разработчиков и пользователей

Практически — ничего особенного. Тезис «next-token prediction даёт реальное понимание» — это объяснительный нарратив, а не инструкция. Если вы строите продукт на LLM, для вас не важно, «понимают» ли модели в философском смысле; важно, насколько надёжно они выдают правильный ответ на вашу задачу. И ответ — «достаточно надёжно для растущего числа задач, но не для всех».

Куда важнее уловить смену парадигмы, которую Суцкевер озвучивает: масштабирование больше не самодостаточно. В 2023 году вы могли получить +20% на бенчмарке за счёт «удвоить компьют». В 2026 — нужно искать новую идею: лучше RL, более качественные данные, новые архитектурные модули, лучшие инструменты для использования моделей. Прирост от чистого скейла измеряется в единицах процентов и не оправдывает $122 млрд.

Для пользователей платных подписок: ChatGPT, Claude, Gemini в 2026 году ощутимо лучше, чем в 2025, но различие не такое драматическое, как было между 2023 и 2024. И это часть нормального хода — чем зрелее технология, тем медленнее она прогрессирует. Это не повод для разочарования, это повод смотреть, какие новые инструменты вокруг моделей появятся: агенты, длинная память, code interpreter, computer use, форвард-деплой.

Что ожидать дальше

Дискуссия о том, «понимает» ли модель, точно никуда не уйдёт. Она будет вспыхивать каждый раз, когда выйдет очередная провокационная демонстрация: или модель решит олимпиадную задачу, или провалит детский тест на причинность. И каждый раз будет повторяться один и тот же танец: одни цитируют Суцкевера про детективный роман, другие — Лекуна про «отсутствие мирового моделирования», третьи показывают новые бенчмарки.

Реальный ответ, скорее всего, между ними. Современные LLM уже точно не «просто статистика», но и не «реальное понимание» в человеческом смысле. Это что-то третье, для которого у нас пока нет хорошего слова. И когда это слово появится — вместе с архитектурой, способной более убедительно делать то, что детективы делают на последней странице — это будет следующая большая глава индустрии. SSI, OpenAI, Anthropic и Google все по-своему пытаются написать её первыми.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

«Угадывание следующего слова — это и есть настоящее понимание»

Что именно утверждает Суцкевер

Что произошло в 2025–2026

Контраргумент: предсказание ≠ понимание

Что говорят бенчмарки

Почему это снова всплыло именно сейчас

Что это значит для разработчиков и пользователей

Что ожидать дальше

Похожие новости

DeepSeek учит модели «тыкать пальцем»: Thinking with Visual Primitives

Два голоса против мейнстрима: LeCun и Chollet о том, куда AI идёт не туда

ARC-AGI-3: средний человек решает 49,14%. А AI — пока даже близко не подошёл