Почему 95% AI-агентов проваливаются при переходе в продакшн

Демо работает идеально, но в реальном бизнесе всё ломается. Разбираем три главные причины провала пилотов AI-агентов и как их избежать.

Пятница, 16:00. Ваш AI-агент для продаж только что пообещал крупнейшему клиенту скидку 50%. Никто не давал такого разрешения. Неделю назад демо работало безупречно — агент отвечал на вопросы, подключался к Confluence и Salesforce, всё было под контролем. Теперь вы объясняете руководству, почему пилот откатывают.

Это не гипотетический сценарий. Исследование MIT показывает, что 95% пилотов AI-агентов не доходят до продакшна. Методология спорная — там смешаны «обучающие эксперименты» и реальные провалы, — но проблема существует. Разрыв между работающей демо и надёжной системой в продакшне убивает проекты.

Андрей Карпати назвал это новой парадигмой программирования: у нас есть мощное ядро (LLM), но нет операционной системы для его запуска. Мы одержимы мозгом, игнорируя нервную систему.

Реальная цена провала

Провалившийся пилот — это не просто неловкость на совещании. Это конкретные убытки.

Пять senior-инженеров три месяца пишут коннекторы для агента, который потом кладут на полку. Это полмиллиона долларов зарплат на инфраструктуру, которая никогда не заработает. Пока вы отлаживаете OAuth-токены для read-only бота в вики, конкуренты выпускают агентов, которые пишут в CRM и ускоряют цикл продаж.

Но хуже всего — эрозия доверия внутри компании. После провала громкого AI-проекта руководство теряет веру в инвестиции в AI. Вице-президенты называют это хайпом. Лучшие инженеры уходят из-за фрустрации.

Ловушка первая: «тупой RAG»

Типичный подход к созданию AI-агента выглядит так: берём все документы из Confluence, историю Slack, данные из Salesforce, загружаем в векторную базу и надеемся, что LLM разберётся.

Это не работает.

Карпати сравнивает контекстное окно LLM с оперативной памятью. «Тупой RAG» — это попытка загрузить весь жёсткий диск в RAM и ожидать, что процессор найдёт нужный байт. Вы получаете не рассуждения, а thrashing — модель захлёбывается в нерелевантной, неструктурированной, противоречивой информации.

Парадокс в том, что меньше контекста часто даёт лучшие результаты. Новому сотруднику не выдают весь корпоративный архив — дают пятистраничный брифинг по его задаче. Агенту нужен тот же подход: точечный контекст под конкретную задачу, а не помойка из всего подряд.

Ловушка вторая: хрупкие коннекторы

Следующая идея: дадим агенту доступ к существующим REST и SOAP API, пусть вызывает нужные эндпоинты.

Проблема в том, что в энтерпрайзе вы не контролируете API Salesforce. Тем более не контролируете 5000 кастомных полей и недокументированных воркфлоу вашего клиента.

Вы даёте наивному агенту доступ к недокументированным rate limits, хрупким middleware, дропдаунам на 200 полей и дублирующейся логике. Это как дать новому сотруднику ключи от серверной без инструкций — что-то обязательно сломается.

Managed tooling interfaces, которые нормализуют схемы за вас, — это не роскошь, а необходимость. Агент не должен разбираться в особенностях каждого API вручную.

Ловушка третья: «налог на поллинг»

Последняя архитектурная ошибка: агент постоянно проверяет обновления. «Заказ готов? А сейчас? А сейчас?»

Инженеры, работавшие с миллиардами событий, знают: поллинг не масштабируется. Вы тратите 95% API-вызовов впустую, выжигаете квоты и никогда не достигаете реальной реактивности.

Автономные агенты нельзя строить на инфраструктуре запрос-ответ. Нужны вебхуки, событийная архитектура, системы прерываний — не бесконечные циклы опроса.

Что нужно: «агентно-нативный» слой интеграции

Успешные команды не просто запускают LLM — они строят операционную систему вокруг него. Этот слой интеграции превращает неготовый энтерпрайз в агентно-совместимую среду.

Первый принцип — точность контекста. Слой переводит запросы в точечные запросы к данным, загружая в «RAM» модели только нужную запись о клиенте, а не всю базу.

Второй принцип — двунаправленность и событийность. Агент, который только читает данные, — это модный поисковик. Продакшн-агентам нужен write-доступ: обновлять CRM, создавать тикеты, провизионить пользователей. И реагировать на события, а не опрашивать их.

Третий принцип — политики и governance. «Пожалуйста, не удаляй записи клиентов» — это не политика безопасности, это пожелание. Продакшн-governance требует разрешений на уровне ОС. Самый эффективный паттерн — Human-in-the-Loop: система ставит на паузу высокорисковые операции и запрашивает подтверждение человека, как sudo-промпт.

Четвёртый принцип — наблюдаемость и тестируемость. Как регрессионно тестировать недетерминированные системы? Слой интеграции захватывает полный trace: chain-of-thought модели (это её stack trace), API-вызовы и контекст, который привёл к плохому выводу. Можно мокать ответы API и валидировать поведение агента в production-like среде до деплоя.

Два организационных паттерна

В 2026 году выкристаллизовались две стратегии построения агентов. Это тот же паттерн, что мы видели при переходе на веб и мобайл.

Паттерн A: централизованная команда агентов. Единый AI Center of Excellence строит и поддерживает всех агентов компании. Когда продажам нужен агент — они заводят тикет. Плюсы: высокое качество, сильный governance, глубокие интеграции. Минусы: команда становится бутылочным горлышком, все остальные месяцами стоят в очереди. Подходит для старта — доказать ROI, научиться технологии, построить надёжных агентов для критичных задач.

Паттерн B: self-serve платформа. Платформенная команда строит и поддерживает инфраструктурный слой как внутренний сервис: авторизация, роутинг, governance, наблюдаемость. Другие команды (маркетинг, саппорт, продукт) используют платформу для создания своих доменных агентов. Минусы: требует зрелой платформенной команды. Плюсы: масштабируется на всю организацию.

Это не «или-или», а кривая зрелости. Начинаете с централизации, переходите к платформе.

Build vs Buy

Можно строить весь агентно-нативный слой inhouse. Но тогда вы становитесь Chief Integration Officer навсегда — поддерживаете схемы всех API, маппинги кастомных полей, auth-флоу, retry-логику. Лучшие инженеры тратят время на сантехнику вместо продукта.

Единственный случай, когда это оправдано: ваши core-системы на 100% уникальные, проприетарные, внутренние — и ни один вендор никогда их не поддержит.

Альтернатива — агентно-нативные интеграционные платформы. Не путать с legacy iPaaS типа MuleSoft или Zapier, которые проектировались для machine-to-machine трансформации данных. Агентно-нативные платформы — это ОС для LLM-ядра: управление контекстом, sudo-промпты, I/O для думающих агентов.

Практический план на 2026

Если ваш план — «векторизуем вики и посмотрим что будет» — остановите пилот сейчас. Вы строите дорогой и ненадёжный поисковик. Выберите один высокоценный воркфлоу.

Проаудируйте этот воркфлоу: задокументируйте каждую систему, API, кастомное поле и tribal knowledge, которых он касается. Это ваша реальная интеграционная поверхность.

Найдите «событийные дыры»: где вы опрашиваете вместо подписки на события? Каким критичным системам не хватает вебхуков? Эти отсутствующие прерывания парализуют вашу ОС.

Исследуйте агентно-нативные платформы, прежде чем писать кастомный OAuth-код. Поймите trade-off build vs buy и долгосрочную стоимость превращения в Chief Integration Officer.

Интеграционную сложность не избежать. Можно только выбрать, как ею управлять.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Почему 95% AI-агентов проваливаются при переходе в продакшн

Реальная цена провала

Ловушка первая: «тупой RAG»

Ловушка вторая: хрупкие коннекторы

Ловушка третья: «налог на поллинг»

Что нужно: «агентно-нативный» слой интеграции

Два организационных паттерна

Build vs Buy

Практический план на 2026

Похожие новости

Андрей Карпати о переломном моменте в программировании: что такое agentic engineering

37 000 AI-ботов создали своё сообщество на Moltbook

AI-агенты нашли друг друга в соцсетях и больше не ждут разрешения людей