GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
claudegptбенчмаркэкспериментreddit

12 нейросетей получили по $2 000 на фудтрак — выжили четыре

Вирусный эксперимент FoodTruck Bench: 12 LLM управляли фудтраком 30 дней. Claude Opus 4.6 победил с ROI +142%. Разбираем стратегии выживших и банкротов.

Влад МакаровВлад Макаровпроверил и опубликовал
8 мин чтения
12 нейросетей получили по $2 000 на фудтрак — выжили четыре

Что произойдёт, если дать двенадцати языковым моделям по $2 000 стартового капитала и попросить управлять фудтраком в Остине, штат Техас? Восемь обанкротятся. Этот эксперимент взорвал Reddit на прошлой неделе — 631 апвоут, 207 комментариев — и спровоцировал серьёзную дискуссию о том, что бенчмарки кодинга и математики не имеют ничего общего с бизнес-мышлением.

Правила игры

FoodTruck Bench — это 30-дневная бизнес-симуляция, в которой каждая модель получает одинаковые стартовые условия: $2 000, фудтрак в Остине и набор из 34 инструментов для принятия решений. Фиксированные расходы — $55 в день на аренду места, страховку и базовые ингредиенты. Модель на основе 12 факторов (погода, день недели, местные события, конкуренция и другие) генерирует поток клиентов.

Каждый день модель решает: сколько еды закупить, какие цены поставить, нанять ли персонал, купить ли апгрейд для грузовика, взять ли кредит. Банкротство наступает, когда баланс уходит в минус и модель не может покрыть фиксированные расходы. Кредиты доступны, но под грабительский процент — ловушка, в которую попали многие.

Кто выжил

Из двенадцати участников до финиша добрались четверо. Результаты вышли неожиданными — и далеко не в пользу лидеров классических бенчмарков.

МодельСтатусROIСтратегия
Claude Opus 4.6Выжил+142%Консервативный рост, 8 апгрейдов
GPT-5.2Выжил+87%Агрессивный маркетинг
Gemini 3 ProВыжил+34%Стабильная, адаптивная
Claude Sonnet 4.5Выжил-30,6%Пассивная, без апгрейдов

Claude Opus 4.6 финишировал с лучшим результатом — ROI +142%. Но самое интересное не в цифрах, а в том, как он этого добился.

Стратегия победителя

Opus 4.6 оказался единственной моделью, которая купила все 8 доступных апгрейдов для грузовика. Он начал осторожно: первую неделю удерживал низкие цены и минимальный штат, наращивая клиентскую базу. Когда выручка стабилизировалась, начал инвестировать — последовательно, по одному апгрейду за раз, каждый раз дожидаясь окупаемости предыдущего.

Ключевая деталь: Opus единственный, кто активно управлял персоналом в зависимости от спроса. Когда модель прогнозировала низкий трафик (будний день, плохая погода), он сокращал смены. Выжившие модели — Opus, GPT-5.2, Gemini 3 Pro — все держали расходы на персонал ниже 35% от выручки. Банкроты этого правила не понимали.

GPT-5.2 пошёл другим путём: агрессивный маркетинг с первых дней, высокие цены, ставка на премиум-сегмент. Стратегия сработала, но с меньшей маржой — слишком много уходило на рекламу.

Почему обанкротились восемь

Паттерн банкротства оказался удивительно однотипным. Большинство моделей попадали в «кредитную ловушку»: после нескольких неудачных дней они брали займ, чтобы покрыть расходы, но проценты по кредиту съедали будущую прибыль, что приводило к новому займу. Спираль закручивалась за 5-7 дней.

Особенно показателен случай Claude Sonnet 4.5. Формально она выжила — но с ROI -30,6% и нулём купленных апгрейдов за 30 дней. Sonnet 4.5 — одна из лучших моделей для кодинга, но в бизнес-симуляции она так и не научилась инвестировать. Просто сидела на стартовом капитале, тратя минимум и не развиваясь. Технически не банкрот, но и не предприниматель.

DeepSeek V3.2, Grok 4.1 Fast и Kimi K2.5 вылетели в первые две недели. Все трое допустили одну и ту же ошибку — набрали персонал в первый же день, не дожидаясь стабильного потока клиентов. Фиксированные расходы на зарплаты плюс $55/день на базовые нужды — при слабом трафике это приговор.

Что это говорит о моделях

Классические бенчмарки — MMLU, HumanEval, SWE-Bench — измеряют способность решать задачи с чётким правильным ответом. FoodTruck Bench проверяет нечто другое: способность принимать решения в условиях неопределённости, балансировать риск и доходность, адаптироваться к меняющимся условиям.

Reddit отреагировал предсказуемо бурно. Один из самых популярных комментариев: «Sonnet 4.5 — это тот сотрудник, который пишет идеальный код, но боится попросить повышение». Другой пользователь заметил, что результаты FoodTruck Bench лучше предсказывают качество AI-агентов, чем любой существующий coding benchmark.

Создатели проекта подчёркивают, что это не замена традиционным бенчмаркам, а дополнение. Модель, блестяще решающая математические задачи, может оказаться беспомощной в ситуации, где нет единственно правильного ответа — а реальный бизнес именно такой.

Что дальше

FoodTruck Bench уже тестирует новые модели — на Reddit появился разбор того, как GLM-5 справилась с теми же 30 днями. Создатели обещают расширить симуляцию: добавить сезонность, конкурентов-ботов и возможность открывать вторую точку. По сути, это движение к полноценному бизнес-симулятору для AI — и судя по реакции сообщества, спрос на такие тесты есть.

Похожие новости

Листайте вниз

для загрузки следующей статьи