Парадокс 2026: токен подешевел в 280 раз, а AI-счета выросли на 320%
Цена за токен AI-инференса упала в 280 раз за два года, но средний бюджет предприятия на AI вырос с $1,2 млн до $7 млн. Финансовые директора впервые серьёзно нервничают.

В 2024 году средняя крупная компания тратила на AI около $1,2 миллиона в год. В 2026 — $7 миллионов. Рост в 5,8 раза за два года. И это при том, что цена одного токена за то же время упала в 280 раз. Цифры взаимно противоречивы только на первый взгляд — на деле они описывают одну из самых болезненных финансовых историй технологического сектора последних лет.
Что вообще происходит
Парадокс инференса, как его уже окрестили в финансовых отделах, выглядит так. Цена за токен у frontier-моделей действительно обвалилась — и продолжает падать. GPT-4 в 2023-м стоил $30 за миллион входных токенов; современный GPT-5.4 mini — около $0,15. Это два с половиной порядка вниз. По логике 2024 года, если вы тогда платили $1 миллион за AI, в 2026-м должны были бы платить $3 600.
Платите вы $7 миллионов. Что пошло не так?
Три структурных фактора, которые уравнение не учитывало.
Первое — агентные воркфлоу. Вместо одного промпта «суммаризируй этот документ» агент делает 10-20 вызовов модели, чтобы тот же документ исследовать, перепроверить, спросить себя «уверен ли я», вернуться, исправить. Один пользовательский запрос превращается в десятки токеновых раундов. Множитель — 10-20×.
Второе — контекст-инфляция через RAG. Чтобы модель ответила про корпоративные данные, к каждому запросу прикручивается 50-200 страниц извлечённого контекста. Один пользовательский вопрос на 200 токенов превращается в инференс на 30 000 токенов. Множитель — 3-5×.
Третье — always-on агенты. Раньше AI работал, когда его звал пользователь. Теперь он работает, когда никого нет: мониторит логи, проверяет метрики, дописывает коммиты в фоне, проактивно ищет аномалии. Биллинг идёт круглосуточно.
Перемножьте 280-кратное удешевление токена на 4 000-кратное увеличение объёмов — и получите рост счетов на 320%. Это не баг финансовой модели. Это то, что Уильям Стэнли Джевонс описал ещё в 1865 году в книге об угле: когда ресурс дешевеет, его суммарное потребление обычно растёт, а не падает.
Где это уже сломало бюджет
Свежий пример — Uber, который в апреле признал, что выжег весь годовой AI-бюджет за четыре месяца. Драйвер — Claude Code, который разлетелся по 5 000 инженерам быстрее, чем финансовый отдел смог пересчитать модель. Индивидуальные счета инженеров — от $500 до $2 000 в месяц на одного человека. По 84% инженеров.
Других кейсов меньше в публичном пространстве, но «Fortune 500 компании сообщают о месячных счетах за AI-инференс в десятках миллионов» — это уже не редкость. И это ещё до того, как GPT-5.5 в феврале удвоила цены: входной токен подорожал с $2,50 до $5 за миллион, выходной — с $15 до $30. Любая команда, чей продакшен опирался на GPT-5.4 и автоматически переехала на 5.5, обнаружила, что счёт вырос вдвое — без единой строчки нового кода.
Сама OpenAI, надо сказать, тоже не в плюсе. Компания «теряет $5 миллиардов в год при выручке $3,7 миллиардов». Это не агрессивный рост в долг — это структурное превышение себестоимости инференса над тем, за что готовы платить даже самые лояльные корпоративные клиенты.
Почему ломаются финансовые модели CFO
Главная ошибка, которую совершают финансовые отделы, — подходить к AI как к SaaS-подписке. В этой модели procurement договаривается о количестве мест, finance проводит строку, и считается, что AI «закрыт». Через шесть месяцев фактические счета оказываются в 3-10 раз выше прогноза, и начинается аварийный пересчёт.
Проблема в единице измерения. SaaS-подписка масштабируется по числу пользователей: 100 человек × $50 = $5 000 в месяц, понятно и предсказуемо. AI масштабируется по поведению: те же 100 человек могут сделать 100 вызовов в день, а могут — 100 000. Разница в счёте — три порядка.
Что предлагают финансовые консультанты, которые уже наработали практику:
Перейти от технических метрик к финансовым. «Сколько мы потратили токенов» — бесполезная цифра. «Сколько нам стоит закрытие одного клиентского тикета AI-агентом» — полезная. Тогда видно, какие воркфлоу платят за себя, а какие — нет.
Внедрить token budgets per workflow — лимиты на запрос, а не на пользователя. Это аналог rate limits, только не для защиты сервиса, а для защиты собственного P&L.
Разделить tier inference: дорогая frontier-модель только там, где это критично; cheap small model — для всего остального. На практике 80% запросов закрываются 8B-моделью с правильным fine-tuning.
И главное — ввести позицию AI Cost Owner. Не ML-инженер, не финансист, а гибридная роль: понимает, как считается биллинг провайдера, понимает, как устроены агентные воркфлоу, понимает, как разговаривать с разработчиками. Без такой роли разрыв между «кто потребляет AI» и «кто платит за AI» так и останется главной причиной аварий.
Что дальше
Краткосрочно — давление на биллинговые модели провайдеров. Anthropic уже ввела бюджетные ограничения для Claude Code; Microsoft ужесточила лимиты в Copilot Enterprise; OpenAI экспериментирует с предоплаченными credit-pools. Тенденция ясна: «безлимитный доступ» в corporate AI-плане — отмирает.
Среднесрочно — рост спроса на локальный inference. Если облако стоит непредсказуемо, а локальная RTX 6000 Pro предсказуемо — выбор очевиден для широкого класса задач. Отсюда — взрывной интерес к Ryzen AI Halo, Mac Studio, Taalas LLM Burner и прочим on-prem решениям.
Долгосрочно — переосмысление того, какие задачи стоит автоматизировать AI, а какие — нет. В 2024 году ответ был «всё, что можно». В 2026 на эту цифру смотрит CFO, и ответ становится «то, что окупается через измеримый эффект». Это не плохо — это конец шапкозакидательской фазы, в которой стоимость инференса считалась исчезающе малой. Жизнь оказалась упрямее: единичный токен дешевеет, общая платежка — растёт. И финансовые директора впервые в эту платежку всматриваются всерьёз.


