Парадокс 2026: токен подешевел в 280 раз, а AI-счета выросли на 320%

Цена за токен AI-инференса упала в 280 раз за два года, но средний бюджет предприятия на AI вырос с $1,2 млн до $7 млн. Финансовые директора впервые серьёзно нервничают.

В 2024 году средняя крупная компания тратила на AI около $1,2 миллиона в год. В 2026 — $7 миллионов. Рост в 5,8 раза за два года. И это при том, что цена одного токена за то же время упала в 280 раз. Цифры взаимно противоречивы только на первый взгляд — на деле они описывают одну из самых болезненных финансовых историй технологического сектора последних лет.

Что вообще происходит

Парадокс инференса, как его уже окрестили в финансовых отделах, выглядит так. Цена за токен у frontier-моделей действительно обвалилась — и продолжает падать. GPT-4 в 2023-м стоил $30 за миллион входных токенов; современный GPT-5.4 mini — около $0,15. Это два с половиной порядка вниз. По логике 2024 года, если вы тогда платили $1 миллион за AI, в 2026-м должны были бы платить $3 600.

Платите вы $7 миллионов. Что пошло не так?

Три структурных фактора, которые уравнение не учитывало.

Первое — агентные воркфлоу. Вместо одного промпта «суммаризируй этот документ» агент делает 10-20 вызовов модели, чтобы тот же документ исследовать, перепроверить, спросить себя «уверен ли я», вернуться, исправить. Один пользовательский запрос превращается в десятки токеновых раундов. Множитель — 10-20×.

Второе — контекст-инфляция через RAG. Чтобы модель ответила про корпоративные данные, к каждому запросу прикручивается 50-200 страниц извлечённого контекста. Один пользовательский вопрос на 200 токенов превращается в инференс на 30 000 токенов. Множитель — 3-5×.

Третье — always-on агенты. Раньше AI работал, когда его звал пользователь. Теперь он работает, когда никого нет: мониторит логи, проверяет метрики, дописывает коммиты в фоне, проактивно ищет аномалии. Биллинг идёт круглосуточно.

Перемножьте 280-кратное удешевление токена на 4 000-кратное увеличение объёмов — и получите рост счетов на 320%. Это не баг финансовой модели. Это то, что Уильям Стэнли Джевонс описал ещё в 1865 году в книге об угле: когда ресурс дешевеет, его суммарное потребление обычно растёт, а не падает.

Где это уже сломало бюджет

Свежий пример — Uber, который в апреле признал, что выжег весь годовой AI-бюджет за четыре месяца. Драйвер — Claude Code, который разлетелся по 5 000 инженерам быстрее, чем финансовый отдел смог пересчитать модель. Индивидуальные счета инженеров — от $500 до $2 000 в месяц на одного человека. По 84% инженеров.

Других кейсов меньше в публичном пространстве, но «Fortune 500 компании сообщают о месячных счетах за AI-инференс в десятках миллионов» — это уже не редкость. И это ещё до того, как GPT-5.5 в феврале удвоила цены: входной токен подорожал с $2,50 до $5 за миллион, выходной — с $15 до $30. Любая команда, чей продакшен опирался на GPT-5.4 и автоматически переехала на 5.5, обнаружила, что счёт вырос вдвое — без единой строчки нового кода.

Сама OpenAI, надо сказать, тоже не в плюсе. Компания «теряет $5 миллиардов в год при выручке $3,7 миллиардов». Это не агрессивный рост в долг — это структурное превышение себестоимости инференса над тем, за что готовы платить даже самые лояльные корпоративные клиенты.

Почему ломаются финансовые модели CFO

Главная ошибка, которую совершают финансовые отделы, — подходить к AI как к SaaS-подписке. В этой модели procurement договаривается о количестве мест, finance проводит строку, и считается, что AI «закрыт». Через шесть месяцев фактические счета оказываются в 3-10 раз выше прогноза, и начинается аварийный пересчёт.

Проблема в единице измерения. SaaS-подписка масштабируется по числу пользователей: 100 человек × $50 = $5 000 в месяц, понятно и предсказуемо. AI масштабируется по поведению: те же 100 человек могут сделать 100 вызовов в день, а могут — 100 000. Разница в счёте — три порядка.

Что предлагают финансовые консультанты, которые уже наработали практику:

Перейти от технических метрик к финансовым. «Сколько мы потратили токенов» — бесполезная цифра. «Сколько нам стоит закрытие одного клиентского тикета AI-агентом» — полезная. Тогда видно, какие воркфлоу платят за себя, а какие — нет.

Внедрить token budgets per workflow — лимиты на запрос, а не на пользователя. Это аналог rate limits, только не для защиты сервиса, а для защиты собственного P&L.

Разделить tier inference: дорогая frontier-модель только там, где это критично; cheap small model — для всего остального. На практике 80% запросов закрываются 8B-моделью с правильным fine-tuning.

И главное — ввести позицию AI Cost Owner. Не ML-инженер, не финансист, а гибридная роль: понимает, как считается биллинг провайдера, понимает, как устроены агентные воркфлоу, понимает, как разговаривать с разработчиками. Без такой роли разрыв между «кто потребляет AI» и «кто платит за AI» так и останется главной причиной аварий.

Что дальше

Краткосрочно — давление на биллинговые модели провайдеров. Anthropic уже ввела бюджетные ограничения для Claude Code; Microsoft ужесточила лимиты в Copilot Enterprise; OpenAI экспериментирует с предоплаченными credit-pools. Тенденция ясна: «безлимитный доступ» в corporate AI-плане — отмирает.

Среднесрочно — рост спроса на локальный inference. Если облако стоит непредсказуемо, а локальная RTX 6000 Pro предсказуемо — выбор очевиден для широкого класса задач. Отсюда — взрывной интерес к Ryzen AI Halo, Mac Studio, Taalas LLM Burner и прочим on-prem решениям.

Долгосрочно — переосмысление того, какие задачи стоит автоматизировать AI, а какие — нет. В 2024 году ответ был «всё, что можно». В 2026 на эту цифру смотрит CFO, и ответ становится «то, что окупается через измеримый эффект». Это не плохо — это конец шапкозакидательской фазы, в которой стоимость инференса считалась исчезающе малой. Жизнь оказалась упрямее: единичный токен дешевеет, общая платежка — растёт. И финансовые директора впервые в эту платежку всматриваются всерьёз.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Парадокс 2026: токен подешевел в 280 раз, а AI-счета выросли на 320%

Что вообще происходит

Где это уже сломало бюджет

Почему ломаются финансовые модели CFO

Что дальше

Похожие новости

Любитель решил 60-летнюю задачу Эрдёша через GPT-5.4 Pro

GPT-5.5 догнал Mythos: оба прошли симуляцию атаки на сеть

Opus 4.6 стоит в 1.7x дороже Opus 4.5 при тех же тарифах — как это возможно