12 нейросетей получили по $2 000 на фудтрак — выжили четыре
Вирусный эксперимент FoodTruck Bench: 12 LLM управляли фудтраком 30 дней. Claude Opus 4.6 победил с ROI +142%. Разбираем стратегии выживших и банкротов.

Что произойдёт, если дать двенадцати языковым моделям по $2 000 стартового капитала и попросить управлять фудтраком в Остине, штат Техас? Восемь обанкротятся. Этот эксперимент взорвал Reddit на прошлой неделе — 631 апвоут, 207 комментариев — и спровоцировал серьёзную дискуссию о том, что бенчмарки кодинга и математики не имеют ничего общего с бизнес-мышлением.
Правила игры
FoodTruck Bench — это 30-дневная бизнес-симуляция, в которой каждая модель получает одинаковые стартовые условия: $2 000, фудтрак в Остине и набор из 34 инструментов для принятия решений. Фиксированные расходы — $55 в день на аренду места, страховку и базовые ингредиенты. Модель на основе 12 факторов (погода, день недели, местные события, конкуренция и другие) генерирует поток клиентов.
Каждый день модель решает: сколько еды закупить, какие цены поставить, нанять ли персонал, купить ли апгрейд для грузовика, взять ли кредит. Банкротство наступает, когда баланс уходит в минус и модель не может покрыть фиксированные расходы. Кредиты доступны, но под грабительский процент — ловушка, в которую попали многие.
Кто выжил
Из двенадцати участников до финиша добрались четверо. Результаты вышли неожиданными — и далеко не в пользу лидеров классических бенчмарков.
| Модель | Статус | ROI | Стратегия |
|---|---|---|---|
| Claude Opus 4.6 | Выжил | +142% | Консервативный рост, 8 апгрейдов |
| GPT-5.2 | Выжил | +87% | Агрессивный маркетинг |
| Gemini 3 Pro | Выжил | +34% | Стабильная, адаптивная |
| Claude Sonnet 4.5 | Выжил | -30,6% | Пассивная, без апгрейдов |
Claude Opus 4.6 финишировал с лучшим результатом — ROI +142%. Но самое интересное не в цифрах, а в том, как он этого добился.
Стратегия победителя
Opus 4.6 оказался единственной моделью, которая купила все 8 доступных апгрейдов для грузовика. Он начал осторожно: первую неделю удерживал низкие цены и минимальный штат, наращивая клиентскую базу. Когда выручка стабилизировалась, начал инвестировать — последовательно, по одному апгрейду за раз, каждый раз дожидаясь окупаемости предыдущего.
Ключевая деталь: Opus единственный, кто активно управлял персоналом в зависимости от спроса. Когда модель прогнозировала низкий трафик (будний день, плохая погода), он сокращал смены. Выжившие модели — Opus, GPT-5.2, Gemini 3 Pro — все держали расходы на персонал ниже 35% от выручки. Банкроты этого правила не понимали.
GPT-5.2 пошёл другим путём: агрессивный маркетинг с первых дней, высокие цены, ставка на премиум-сегмент. Стратегия сработала, но с меньшей маржой — слишком много уходило на рекламу.
Почему обанкротились восемь
Паттерн банкротства оказался удивительно однотипным. Большинство моделей попадали в «кредитную ловушку»: после нескольких неудачных дней они брали займ, чтобы покрыть расходы, но проценты по кредиту съедали будущую прибыль, что приводило к новому займу. Спираль закручивалась за 5-7 дней.
Особенно показателен случай Claude Sonnet 4.5. Формально она выжила — но с ROI -30,6% и нулём купленных апгрейдов за 30 дней. Sonnet 4.5 — одна из лучших моделей для кодинга, но в бизнес-симуляции она так и не научилась инвестировать. Просто сидела на стартовом капитале, тратя минимум и не развиваясь. Технически не банкрот, но и не предприниматель.
DeepSeek V3.2, Grok 4.1 Fast и Kimi K2.5 вылетели в первые две недели. Все трое допустили одну и ту же ошибку — набрали персонал в первый же день, не дожидаясь стабильного потока клиентов. Фиксированные расходы на зарплаты плюс $55/день на базовые нужды — при слабом трафике это приговор.
Что это говорит о моделях
Классические бенчмарки — MMLU, HumanEval, SWE-Bench — измеряют способность решать задачи с чётким правильным ответом. FoodTruck Bench проверяет нечто другое: способность принимать решения в условиях неопределённости, балансировать риск и доходность, адаптироваться к меняющимся условиям.
Reddit отреагировал предсказуемо бурно. Один из самых популярных комментариев: «Sonnet 4.5 — это тот сотрудник, который пишет идеальный код, но боится попросить повышение». Другой пользователь заметил, что результаты FoodTruck Bench лучше предсказывают качество AI-агентов, чем любой существующий coding benchmark.
Создатели проекта подчёркивают, что это не замена традиционным бенчмаркам, а дополнение. Модель, блестяще решающая математические задачи, может оказаться беспомощной в ситуации, где нет единственно правильного ответа — а реальный бизнес именно такой.
Что дальше
FoodTruck Bench уже тестирует новые модели — на Reddit появился разбор того, как GLM-5 справилась с теми же 30 днями. Создатели обещают расширить симуляцию: добавить сезонность, конкурентов-ботов и возможность открывать вторую точку. По сути, это движение к полноценному бизнес-симулятору для AI — и судя по реакции сообщества, спрос на такие тесты есть.


