GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
openaigptрелизcomputer-useфинансы

GPT-5.4 умеет управлять компьютером и считать в Excel

OpenAI выпустила GPT-5.4 в версиях Thinking и Pro с нативным Computer Use, финансовыми плагинами для Excel и Google Sheets и сниженным расходом токенов.

Влад МакаровВлад Макаровпроверил и опубликовал
7 мин чтения
GPT-5.4 умеет управлять компьютером и считать в Excel

Через два дня после запуска GPT-5.3 Instant компания OpenAI представила GPT-5.4 — модель, которая впервые в линейке GPT умеет нативно управлять компьютером и встраивается прямо в Excel и Google Sheets. Релиз доступен в двух вариантах: GPT-5.4 Thinking для подписчиков Plus и выше, и GPT-5.4 Pro для пользователей ChatGPT Pro ($200/мес) и Enterprise.

Компьютер как инструмент

Главное нововведение — нативный режим Computer Use через API и Codex. GPT-5.4 может навигировать по рабочему столу, кликать мышью, вводить текст с клавиатуры и работать сразу в нескольких приложениях. Это не обёртка поверх скриншотов — модель одновременно пишет код через Playwright и управляет интерфейсом по визуальным наблюдениям.

Цифры впечатляют. На бенчмарке OSWorld-Verified, который измеряет навигацию по десктопу через скриншоты и клавиатуру, GPT-5.4 набирает 75.0% — при том что показатель человека на том же тесте составляет 72.4%. GPT-5.2 набирала лишь 47.3%. На BrowseComp (поиск труднодоступной информации в вебе) Pro-версия достигает 89.3% — новый state of the art.

Финансовые плагины

Второе направление — интеграция с финансовыми инструментами. OpenAI встроила ChatGPT прямо в Microsoft Excel и Google Sheets (бета), где модель может строить, анализировать и обновлять финансовые модели, работая с формулами и структурами таблиц.

Вместе с этим запущены интеграции с FactSet, MSCI, Third Bridge и Moody's, а также набор переиспользуемых «скиллов» для типовых финансовых задач: подготовка к отчётности, сравнительный анализ, DCF-модели, инвестиционные записки.

На внутреннем бенчмарке инвестиционного банкинга OpenAI показатель модели вырос с 43.7% (GPT-5) до 88.0% (GPT-5.4 Thinking). Дэниел Свиеки из Walleye Capital подтверждает: точность на внутренних финансовых тестах увеличилась на 30 процентных пунктов.

Токенная экономия и Tool Search

OpenAI решает проблему раздутого контекста при работе с большим количеством инструментов. Вместо того чтобы загружать все определения инструментов в промпт, GPT-5.4 использует механизм Tool Search — модель получает лёгкий список и запрашивает полные определения только по необходимости.

На 250 задачах из Scale MCP Atlas benchmark с 36 MCP-серверами этот подход сократил расход токенов на 47% без потери точности. Для разработчиков, работающих с десятками инструментов, это ощутимая экономия.

Производительность и бенчмарки

БенчмаркGPT-5.2GPT-5.4Изменение
OSWorld-Verified47.3%75.0%+27.7 п.п.
BrowseComp (Pro)89.3%SOTA
WebArena-Verified65.4%67.3%+1.9 п.п.
MMMU-Pro79.5%81.2%+1.7 п.п.
GDPval (vs. профессионалы)71.0%83.0%+12 п.п.
Галлюцинации (ответы с ошибками)baseline-18%значительно

На GDPval, который оценивает «типичную офисную работу» в 44 профессиях, GPT-5.4 сравнялась с профессионалами или превзошла их в 83% случаев. Человеческие оценщики предпочитали презентации GPT-5.4 версиям от GPT-5.2 в 68% случаев.

Цены

МодельВход (за 1M токенов)Выход (за 1M токенов)
GPT-5.4$2.50$15.00
GPT-5.4 Pro$30.00$180.00

Контекст — до 1 миллиона токенов, но при превышении 272K токенов на входе цена удваивается. Максимальный выход — 128K токенов. Для Batch и Flex доступна скидка 50%, для Priority — наценка 2×.

По сравнению с конкурентами GPT-5.4 стоит $17.50 за миллион токенов (вход + выход) — дешевле Claude Sonnet 4.6 ($18) и Claude Opus 4.6 ($30), но значительно дороже DeepSeek ($0.70) и Qwen3 Turbo ($0.25). Pro-версия за $210/M — самая дорогая модель на рынке.

Что это значит

GPT-5.4 — это не просто улучшение качества ответов. OpenAI явно двигается от модели-чатбота к модели-работнику, которая может часами выполнять задачи за компьютером, переключаться между приложениями и производить конечные артефакты — таблицы, презентации, отчёты.

Финансовый сектор получает инструмент, который уже сейчас заменяет часть работы джуниор-аналитика. Для разработчиков Computer Use через API открывает возможности автоматизации, которые раньше требовали сложных скриптов и RPA-платформ.

Главный вопрос — оправдает ли качество Computer Use своё позиционирование в продакшене, где ошибка в один клик может стоить дорого. Бенчмарки обнадёживают, но реальные рабочие процессы всегда сложнее тестов.

Похожие новости

Листайте вниз

для загрузки следующей статьи