GPT-5.4 умеет управлять компьютером и считать в Excel
OpenAI выпустила GPT-5.4 в версиях Thinking и Pro с нативным Computer Use, финансовыми плагинами для Excel и Google Sheets и сниженным расходом токенов.

Через два дня после запуска GPT-5.3 Instant компания OpenAI представила GPT-5.4 — модель, которая впервые в линейке GPT умеет нативно управлять компьютером и встраивается прямо в Excel и Google Sheets. Релиз доступен в двух вариантах: GPT-5.4 Thinking для подписчиков Plus и выше, и GPT-5.4 Pro для пользователей ChatGPT Pro ($200/мес) и Enterprise.
Компьютер как инструмент
Главное нововведение — нативный режим Computer Use через API и Codex. GPT-5.4 может навигировать по рабочему столу, кликать мышью, вводить текст с клавиатуры и работать сразу в нескольких приложениях. Это не обёртка поверх скриншотов — модель одновременно пишет код через Playwright и управляет интерфейсом по визуальным наблюдениям.
Цифры впечатляют. На бенчмарке OSWorld-Verified, который измеряет навигацию по десктопу через скриншоты и клавиатуру, GPT-5.4 набирает 75.0% — при том что показатель человека на том же тесте составляет 72.4%. GPT-5.2 набирала лишь 47.3%. На BrowseComp (поиск труднодоступной информации в вебе) Pro-версия достигает 89.3% — новый state of the art.
Финансовые плагины
Второе направление — интеграция с финансовыми инструментами. OpenAI встроила ChatGPT прямо в Microsoft Excel и Google Sheets (бета), где модель может строить, анализировать и обновлять финансовые модели, работая с формулами и структурами таблиц.
Вместе с этим запущены интеграции с FactSet, MSCI, Third Bridge и Moody's, а также набор переиспользуемых «скиллов» для типовых финансовых задач: подготовка к отчётности, сравнительный анализ, DCF-модели, инвестиционные записки.
На внутреннем бенчмарке инвестиционного банкинга OpenAI показатель модели вырос с 43.7% (GPT-5) до 88.0% (GPT-5.4 Thinking). Дэниел Свиеки из Walleye Capital подтверждает: точность на внутренних финансовых тестах увеличилась на 30 процентных пунктов.
Токенная экономия и Tool Search
OpenAI решает проблему раздутого контекста при работе с большим количеством инструментов. Вместо того чтобы загружать все определения инструментов в промпт, GPT-5.4 использует механизм Tool Search — модель получает лёгкий список и запрашивает полные определения только по необходимости.
На 250 задачах из Scale MCP Atlas benchmark с 36 MCP-серверами этот подход сократил расход токенов на 47% без потери точности. Для разработчиков, работающих с десятками инструментов, это ощутимая экономия.
Производительность и бенчмарки
| Бенчмарк | GPT-5.2 | GPT-5.4 | Изменение |
|---|---|---|---|
| OSWorld-Verified | 47.3% | 75.0% | +27.7 п.п. |
| BrowseComp (Pro) | — | 89.3% | SOTA |
| WebArena-Verified | 65.4% | 67.3% | +1.9 п.п. |
| MMMU-Pro | 79.5% | 81.2% | +1.7 п.п. |
| GDPval (vs. профессионалы) | 71.0% | 83.0% | +12 п.п. |
| Галлюцинации (ответы с ошибками) | baseline | -18% | значительно |
На GDPval, который оценивает «типичную офисную работу» в 44 профессиях, GPT-5.4 сравнялась с профессионалами или превзошла их в 83% случаев. Человеческие оценщики предпочитали презентации GPT-5.4 версиям от GPT-5.2 в 68% случаев.
Цены
| Модель | Вход (за 1M токенов) | Выход (за 1M токенов) |
|---|---|---|
| GPT-5.4 | $2.50 | $15.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
Контекст — до 1 миллиона токенов, но при превышении 272K токенов на входе цена удваивается. Максимальный выход — 128K токенов. Для Batch и Flex доступна скидка 50%, для Priority — наценка 2×.
По сравнению с конкурентами GPT-5.4 стоит $17.50 за миллион токенов (вход + выход) — дешевле Claude Sonnet 4.6 ($18) и Claude Opus 4.6 ($30), но значительно дороже DeepSeek ($0.70) и Qwen3 Turbo ($0.25). Pro-версия за $210/M — самая дорогая модель на рынке.
Что это значит
GPT-5.4 — это не просто улучшение качества ответов. OpenAI явно двигается от модели-чатбота к модели-работнику, которая может часами выполнять задачи за компьютером, переключаться между приложениями и производить конечные артефакты — таблицы, презентации, отчёты.
Финансовый сектор получает инструмент, который уже сейчас заменяет часть работы джуниор-аналитика. Для разработчиков Computer Use через API открывает возможности автоматизации, которые раньше требовали сложных скриптов и RPA-платформ.
Главный вопрос — оправдает ли качество Computer Use своё позиционирование в продакшене, где ошибка в один клик может стоить дорого. Бенчмарки обнадёживают, но реальные рабочие процессы всегда сложнее тестов.


