Все модели одновременно «поглупели»: что происходит с GPT, Claude и Gemini

В апреле 2026 на Reddit массово жалуются на падение качества всех топ-моделей. Разбираем семь технических причин, по которым «веса заморожены, а поведение меняется».

«Я заметил, что в середине апреля 2026 каждая модель словила серьёзный регресс в интеллекте». Это первая фраза поста на r/LocalLLaMA, который за неделю собрал тысячи апвоутов и стал точкой притяжения для аналогичных жалоб с r/ClaudeAI, r/ChatGPT и r/Bard. Жалобы сходятся подозрительно одинаково: модели хуже считают, путаются в длинном контексте, чаще «лень» им разбираться и чаще галлюцинируют. И это касается всех — Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro. Что происходит на самом деле, и почему это не про «нерфят специально».

Веса заморожены — поведение нет

Главное заблуждение, которое стоит сразу убрать. Когда Anthropic выпускает Opus 4.7, веса модели — миллиарды обученных параметров — фиксируются. Тренировка стоит миллионы долларов и недели вычислений. Никто не переучивает модель за ночь. Все три провайдера это публично подтверждали.

Но веса — это только один слой большой системы. Над ними находится целая стопка инженерии, и каждый её уровень может менять поведение независимо от модели:

Системный промпт — обновляется регулярно
Post-training (RLHF, fine-tuning) — может тихо обновляться
Параметры сэмплинга (temperature, top-p) — настраиваются на сервере
Speculative decoding — качество draft-модели плавает
MoE-роутинг — какие эксперты активируются на запрос
Аппаратный роутинг — TPU, GPU или Trainium
Уровень квантизации (FP16 / INT8 / INT4)
Компилятор и runtime (XLA, CUDA)
Контекст вашей сессии — накопившиеся ошибки, длинные диалоги

Anthropic в сентябрьском постмортеме 2025 года сама подтвердила: между августом и сентябрём качество Claude действительно падало, но не из-за «нерфа», а из-за трёх независимых инфраструктурных багов. Самый худший момент — 31 августа, когда 16% запросов к Sonnet 4 уходили на серверы, сконфигурированные не под тот размер контекста. Около 30% пользователей Claude Code хотя бы раз получили деградированный ответ. В цитате из постмортема:

«Мы никогда не снижаем качество модели из-за спроса, времени суток или нагрузки на серверы. Проблемы, о которых сообщали пользователи, были вызваны исключительно инфраструктурными багами.» — Anthropic, постмортем сентября 2025

Семь причин, по которым «всё одновременно поломалось»

Инфраструктурные баги

Самый жёсткий из багов сентября 2025-го — XLA:TPU miscompilation. Аппроксимирующая операция top-k (та, что выбирает наиболее вероятные следующие токены) «иногда возвращала полностью неверные результаты, но только при определённых размерах батча и конфигурациях модели». Баг прятался месяцами, потому что workaround из декабря 2024-го случайно его маскировал. Затронуты Haiku 3.5 наверняка, Sonnet 4 и Opus 3 — частично. Решение — переход с приближённой top-k на точную, ценой «небольшой потери эффективности», потому что «качество модели — не предмет торга».

Claude крутится на трёх разных аппаратных платформах: AWS Trainium, Nvidia GPU и Google TPU. У каждой — свои компиляторы, свои режимы точности и свои failure modes. Ваш запрос на одной неделе уйдёт на одно железо, на следующей — на другое. Если что-то сломалось на TPU, а вы попадаете именно на него — вы видите регресс. Сосед попадает на Trainium и не видит ничего.

MoE-роутинг — проверенные ±8-14%

Современные большие модели часто используют Mixture-of-Experts: только часть параметров (эксперты) активируется на конкретный вход, выбирает их обученный роутер. Scale AI измерила day-to-day разброс качества из-за роутинга: ±10-12% у OpenAI, ±8-11% у Anthropic, ±9-14% у Google. Конкретный пример: одна и та же модель набирала 77% на jailbreak-resistance тесте в один день и 63% — в другой. Те же веса, тот же тест, разница в 14 пунктов из-за инфраструктуры.

Это значит, что даже без всяких багов и обновлений одна и та же модель может выдавать заметно разное качество в разные дни. И A/B-тест с сигналом 5% не отличишь от шума при day-to-day variance в 10-15%.

Системные промпты и post-training

Веса не меняются, но системный промпт можно править в любой момент. Анализ эволюции системного промпта Claude показывает десятки итераций — короткие «hot-fix» добавляются и убираются регулярно. С Claude 3.7 на Claude 4.0 убрали все hot-fix-инструкции, вместо них поведение зашили в RLHF.

Самая правдоподобная гипотеза необъяснимых сдвигов — обновление fine-tuning и RLHF без изменения базовых весов. Технически провайдер при этом честно говорит «модель не менялась», но поведение — другое.

Тихие подмены модели

OpenAI неоднократно ловили на тихой замене модели в проде: убрали model picker и принудительно перевели юзеров с GPT-4o на GPT-5, сделали GPT-4o скрытой «legacy»-моделью без уведомления, словили баг автосвитчера, который роутил юзеров на не ту модель. Sam Altman признал, что «релиз был чуть менее гладким, чем хотелось». Reddit назвал новую модель «катастрофой» и «даунгрейдом». Урок простой: подмены реально случаются, иногда осознанно (продуктовое решение), иногда случайно (баг в роутинге).

Квантизация под нагрузкой

Чтобы экономно обслуживать миллионы пользователей, провайдеры могут перейти на квантизованные версии модели — с FP16 на INT8 или INT4. Это даёт 2-4× экономии памяти и ускорение, но вносит мелкие потери качества. Признаются ли провайдеры в динамическом переключении квантизации под нагрузкой — спорный вопрос, но техническая возможность есть, и она хорошо документирована в vLLM и TensorRT.

Speculative decoding

Современный inference-стек использует маленькую draft-модель, чтобы предсказать сразу несколько токенов вперёд, а большая модель верифицирует. В теории распределение outputs сохраняется. На практике acceptance rate плавает по доменам и контекстам. Out-of-the-box draft-модели могут отлично работать на одних задачах и ломаться на других — особенно на длинных контекстах.

Накопление ошибок в сессии

Самая частая причина «Claude поглупел» в одной конкретной сессии — это не модель, а контекст. В длинном кодинг-чате накапливаются ранние ошибки. Модель видит свои собственные косяки и продолжает их перепродвигать. Самое практичное действие — /compact или старт новой сессии, как только качество поплыло.

Сила психологии

Эффект	Что происходит
Confirmation bias	После твита «Claude сегодня тупой» вы замечаете каждую ошибку. В дни без жалоб — игнорируете те же ошибки.
Honeymoon effect	На новой модели первая неделя восторга, потом постепенное обнаружение лимитов. Модель не менялась — менялись ожидания.
Variance задач	Тяжёлый день задач ощущается как регресс модели.
Stochastic nature	Один и тот же промпт даёт разный output. Серия неудач подряд — чистая случайность.
«Weekend Claude» миф	Анализ пытался найти зависимость качества от дня недели — нет её.

Что показал стэнфордский 2023-й

Стэнфорд и Berkeley в 2023-м опубликовали «How is ChatGPT's Behavior Changing Over Time?» — первое крупное исследование LLM-drift. Заголовочная находка: точность GPT-4 на задаче «Это число простое? Думай пошагово» упала с 97.6% до 2.4% между мартом и июнем 2023.

Дальше начались методологические уточнения. Мартовская версия тестировалась с temperature 0.0, июньская — с temperature 1.0 (фундаментальное смешение, увеличивает рандом). Всего 500 запросов на задачу — слишком мало для жёстких выводов. «Математические вопросы» оказались yes/no-вопросами, где у модели поменялся паттерн угадывания, а не способность считать. И сами изменения, скорее всего, отражали интенциональные post-training safety updates, а не «деградацию».

Исследование доказало важное: поведение LLM меняется во времени, и это нужно мерить. Но механизм был — намеренные апдейты, не неумышленная деградация.

Что это значит на практике

Если вы строите продукт на любой из топ-моделей, главное практическое следствие — проблема измерения. Day-to-day variance ±8-14% означает, что вы не отличите реальное падение качества на 5% от шума. Отсюда два правила, которые стоит зашить в любой production-стек.

Первое — закрепляйте снимки моделей, когда это возможно, вместо плавающих алиасов. Второе — крутите ежедневный canary-suite на фиксированном наборе задач и алёртите на регрессию. Третье — храните метаданные каждого запроса (model ID, параметры, latency, ошибки). Четвёртое — разделяйте в дашбордах «качество модели» и «надёжность сервинга» — это две разные истории, и их часто путают.

Для пользователя без инфраструктурных рычагов — самое полезное практическое действие в том, чтобы при первом ощущении деградации просто стартануть новую сессию или вызвать compact. В половине случаев «модель опять поглупела» — это про накопившийся в чате контекст, а не про backend.

Выводы

Феномен, который описывают пользователи, — реален, но почти всегда атрибутируется неверно. Их опыт действительно деградирует в определённые дни. Модели при этом не «нерфят» намеренно. Реальные причины — комбинация инфраструктурных багов, MoE-разброса роутинга, апдейтов системного промпта и post-training, аппаратной гетерогенности, контекстного загрязнения сессий, психологии и стохастичности.

Это плохая новость: пока модели крутятся на трёх типах железа с разными компиляторами и под разными политиками сервинга, регрессии по 8-14% — это норма, а не аномалия. И хорошая новость: их можно измерять, изолировать и работать вокруг них. Anthropic в постмортеме показала образец прозрачности — публично разобрали три бага, признали 16% затронутых запросов, объяснили механизм. Если бы каждая лаборатория делала так же, разговор «они нас нерфят» закрылся бы за месяц.

Чего точно не нужно делать — менять модель каждый раз, когда она кажется «глупее». Скорее всего, через два дня всё восстановится, а вы потратите неделю на переписывание промптов под другую модель, у которой завтра будет своя инфраструктурная авария.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN