"We need to go deeper": рекурсивные AI-агенты и стена контекста в 30k токенов

Почему AI-агенты теряют нить после 30 000 токенов и как Recursive Language Models, context folding и scaffolding пытаются это исправить.

Представьте: вы просите AI-агента отрефакторить большой проект. Он начинает бодро — читает файлы, строит план, вносит правки. Через час работы у него в контексте 30 000 токенов. Через два часа — 60 000. Где-то после 100 000 он начинает забывать, что делал в начале. Повторяет одни и те же действия, теряет нить, путает файлы. Знакомо? Это context rot — и это главная проблема AI-агентов в 2026 году.

Контекст как узкое горлышко

AI-агенты стали невероятно полезными. Claude Code, OpenAI Codex, Cursor — все они способны автономно работать с десятками файлов, искать в интернете, вносить сложные правки. Но каждое действие добавляет токены в контекст. Прочитал файл — плюс 2000 токенов. Получил результат поиска — ещё 1500. Ответил на промежуточный вопрос — ещё 500. За час активной работы агент легко набирает 50-100 тысяч токенов.

Проблема не только в том, что модели имеют ограничение по длине контекста (хотя и это: Opus 4.6 — 1M, но большинство моделей — 128-200K). Настоящая проблема в том, что качество ответов падает задолго до того, как контекст заканчивается. Исследование Chroma показало, что context rot начинается значительно раньше формального лимита: модель перестаёт «видеть» информацию в середине длинного контекста, фокусируясь на начале и конце.

Это создаёт парадокс: чем дольше агент работает, тем хуже он работает. А сложные задачи, как раз те, ради которых агенты и нужны, требуют долгой работы.

Три подхода к решению

Индустрия атакует проблему с трёх сторон, и каждый подход имеет свои компромиссы.

Scaffolding — строительные леса. Это то, чем пользуются Claude Code и Codex уже сейчас. Идея: не пытаться удержать всё в контексте. Вместо этого агент периодически «сжимает» контекст — пишет саммари выполненной работы, сохраняет состояние в файлы, а потом стартует с чистого контекста, загрузив только саммари и нужные файлы. По сути это цепочка агентов, связанных через промпт и состояние файловой системы.

Работает, но теряет нюансы. Каждое сжатие — потеря информации. Если в начале сессии агент заметил тонкий баг в обработке edge case, после двух компрессий этот факт может исчезнуть.

Context folding — свёртка контекста. Подход, который описывает Prime Intellect в своей работе о Recursive Language Models. Вместо того чтобы складывать состояние во внешние файлы, модель управляет своим собственным контекстом: удаляет неактуальные части, переструктурирует информацию, сохраняет важное в компактной форме. Контекст остаётся коротким, но информативным.

Разница со scaffolding: context folding работает внутри модели, а не снаружи. Это как разница между тем, чтобы записывать заметки на бумажке (scaffolding) и тем, чтобы натренировать память удерживать главное (folding). Оба подхода совместимы и дополняют друг друга.

Архитектурные изменения. Subquadratic attention вроде того, что предложила Concavity AI, позволяет обрабатывать контексты до 10M токенов на одном GPU со сложностью O(L^1.54) вместо квадратичной. Это не решает проблему context rot напрямую, но расширяет доступное пространство.

Recursive Language Models

Prime Intellect назвала Recursive Language Models «парадигмой 2026 года» — и это не преувеличение. Идея: модель, которая может вызывать себя рекурсивно, каждый раз с очищенным и переструктурированным контекстом.

Вместо одного длинного контекста на 200K токенов — дерево вызовов, где каждый узел работает с коротким контекстом в 8-16K токенов. Корневой агент ставит задачу, дочерние выполняют подзадачи, результаты агрегируются обратно. Контекст каждого отдельного вызова остаётся маленьким — в зоне, где модели работают лучше всего.

Звучит знакомо? Это именно то, что делают Agent Teams в Claude Opus 4.6: корневой агент оркестрирует работу специализированных суб-агентов. Разница в том, что RLM-подход предполагает встраивание этой логики в саму модель, а не во внешний scaffolding.

Проблема рекурсии

«We need to go deeper» — фраза из «Inception» стала неофициальным девизом этого направления, и не без иронии. Чем глубже рекурсия, тем больше проблем.

Каждый уровень рекурсии — это потенциальная потеря контекста при передаче вверх. Корневой агент не знает деталей того, что делали дочерние, — только их саммари. Если дочерний агент обнаружил что-то важное, но не включил в итоговый ответ, информация теряется.

Есть и проблема координации: два суб-агента могут принять конфликтующие решения, потому что работают с разными срезами данных. В мире людей это решается через совещания. В мире AI-агентов — пока плохо.

Наконец, стоимость. Каждый рекурсивный вызов — это новый инференс. Дерево из десятка агентов, каждый с контекстом в 16K токенов, может оказаться дороже одного агента с контекстом в 200K.

Практические последствия

Для разработчиков, которые строят AI-агентов прямо сейчас, это означает конкретные вещи. Нельзя просто бросить модели задачу на четыре часа работы и ожидать стабильного результата. Нужно проектировать системы с учётом degradation: разбивать задачи на куски, встраивать чекпоинты, предусматривать перезапуск с сохранённым состоянием.

Инструменты вроде Claude Code уже делают это под капотом — компрессия контекста, запись в файлы, цепочки агентов. Но для задач, которые требуют по-настоящему длительной автономной работы — вроде рефакторинга большой кодовой базы или многодневного ресёрча — текущих решений недостаточно.

2026 год, скорее всего, станет годом решения этой проблемы. Prime Intellect готовит открытую реализацию RLM. Concavity AI обещает subquadratic attention в продакшене. Anthropic и OpenAI наращивают scaffolding в своих агентных системах. Гонка идёт — и ставки высоки: тот, кто первым решит проблему context rot для агентов, получит ключ к по-настоящему автономному AI.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

"We need to go deeper": рекурсивные AI-агенты и стена контекста в 30k токенов

Контекст как узкое горлышко

Три подхода к решению

Recursive Language Models

Проблема рекурсии

Практические последствия

Похожие новости

Трамп объявил войну Anthropic — компанию отключают от госконтрактов

AI-агенты нашли друг друга в соцсетях и больше не ждут разрешения людей

Zoom CEO: «Я ненавижу работать 5 дней» — 3-дневная неделя к 2031