"We need to go deeper": рекурсивные AI-агенты и стена контекста в 30k токенов
Почему AI-агенты теряют нить после 30 000 токенов и как Recursive Language Models, context folding и scaffolding пытаются это исправить.

Представьте: вы просите AI-агента отрефакторить большой проект. Он начинает бодро — читает файлы, строит план, вносит правки. Через час работы у него в контексте 30 000 токенов. Через два часа — 60 000. Где-то после 100 000 он начинает забывать, что делал в начале. Повторяет одни и те же действия, теряет нить, путает файлы. Знакомо? Это context rot — и это главная проблема AI-агентов в 2026 году.
Контекст как узкое горлышко
AI-агенты стали невероятно полезными. Claude Code, OpenAI Codex, Cursor — все они способны автономно работать с десятками файлов, искать в интернете, вносить сложные правки. Но каждое действие добавляет токены в контекст. Прочитал файл — плюс 2000 токенов. Получил результат поиска — ещё 1500. Ответил на промежуточный вопрос — ещё 500. За час активной работы агент легко набирает 50-100 тысяч токенов.
Проблема не только в том, что модели имеют ограничение по длине контекста (хотя и это: Opus 4.6 — 1M, но большинство моделей — 128-200K). Настоящая проблема в том, что качество ответов падает задолго до того, как контекст заканчивается. Исследование Chroma показало, что context rot начинается значительно раньше формального лимита: модель перестаёт «видеть» информацию в середине длинного контекста, фокусируясь на начале и конце.
Это создаёт парадокс: чем дольше агент работает, тем хуже он работает. А сложные задачи, как раз те, ради которых агенты и нужны, требуют долгой работы.
Три подхода к решению
Индустрия атакует проблему с трёх сторон, и каждый подход имеет свои компромиссы.
Scaffolding — строительные леса. Это то, чем пользуются Claude Code и Codex уже сейчас. Идея: не пытаться удержать всё в контексте. Вместо этого агент периодически «сжимает» контекст — пишет саммари выполненной работы, сохраняет состояние в файлы, а потом стартует с чистого контекста, загрузив только саммари и нужные файлы. По сути это цепочка агентов, связанных через промпт и состояние файловой системы.
Работает, но теряет нюансы. Каждое сжатие — потеря информации. Если в начале сессии агент заметил тонкий баг в обработке edge case, после двух компрессий этот факт может исчезнуть.
Context folding — свёртка контекста. Подход, который описывает Prime Intellect в своей работе о Recursive Language Models. Вместо того чтобы складывать состояние во внешние файлы, модель управляет своим собственным контекстом: удаляет неактуальные части, переструктурирует информацию, сохраняет важное в компактной форме. Контекст остаётся коротким, но информативным.
Разница со scaffolding: context folding работает внутри модели, а не снаружи. Это как разница между тем, чтобы записывать заметки на бумажке (scaffolding) и тем, чтобы натренировать память удерживать главное (folding). Оба подхода совместимы и дополняют друг друга.
Архитектурные изменения. Subquadratic attention вроде того, что предложила Concavity AI, позволяет обрабатывать контексты до 10M токенов на одном GPU со сложностью O(L^1.54) вместо квадратичной. Это не решает проблему context rot напрямую, но расширяет доступное пространство.
Recursive Language Models
Prime Intellect назвала Recursive Language Models «парадигмой 2026 года» — и это не преувеличение. Идея: модель, которая может вызывать себя рекурсивно, каждый раз с очищенным и переструктурированным контекстом.
Вместо одного длинного контекста на 200K токенов — дерево вызовов, где каждый узел работает с коротким контекстом в 8-16K токенов. Корневой агент ставит задачу, дочерние выполняют подзадачи, результаты агрегируются обратно. Контекст каждого отдельного вызова остаётся маленьким — в зоне, где модели работают лучше всего.
Звучит знакомо? Это именно то, что делают Agent Teams в Claude Opus 4.6: корневой агент оркестрирует работу специализированных суб-агентов. Разница в том, что RLM-подход предполагает встраивание этой логики в саму модель, а не во внешний scaffolding.
Проблема рекурсии
«We need to go deeper» — фраза из «Inception» стала неофициальным девизом этого направления, и не без иронии. Чем глубже рекурсия, тем больше проблем.
Каждый уровень рекурсии — это потенциальная потеря контекста при передаче вверх. Корневой агент не знает деталей того, что делали дочерние, — только их саммари. Если дочерний агент обнаружил что-то важное, но не включил в итоговый ответ, информация теряется.
Есть и проблема координации: два суб-агента могут принять конфликтующие решения, потому что работают с разными срезами данных. В мире людей это решается через совещания. В мире AI-агентов — пока плохо.
Наконец, стоимость. Каждый рекурсивный вызов — это новый инференс. Дерево из десятка агентов, каждый с контекстом в 16K токенов, может оказаться дороже одного агента с контекстом в 200K.
Практические последствия
Для разработчиков, которые строят AI-агентов прямо сейчас, это означает конкретные вещи. Нельзя просто бросить модели задачу на четыре часа работы и ожидать стабильного результата. Нужно проектировать системы с учётом degradation: разбивать задачи на куски, встраивать чекпоинты, предусматривать перезапуск с сохранённым состоянием.
Инструменты вроде Claude Code уже делают это под капотом — компрессия контекста, запись в файлы, цепочки агентов. Но для задач, которые требуют по-настоящему длительной автономной работы — вроде рефакторинга большой кодовой базы или многодневного ресёрча — текущих решений недостаточно.
2026 год, скорее всего, станет годом решения этой проблемы. Prime Intellect готовит открытую реализацию RLM. Concavity AI обещает subquadratic attention в продакшене. Anthropic и OpenAI наращивают scaffolding в своих агентных системах. Гонка идёт — и ставки высоки: тот, кто первым решит проблему context rot для агентов, получит ключ к по-настоящему автономному AI.


