OpenAI logo

GPT-4o

Мультимодальная
OpenAI

GPT-4o ('o' означает 'omni') — это мультимодальная модель ИИ, которая принимает текстовые, аудио, изображения и видео входные данные, а генерирует текстовые, аудио и графические выходные данные. Она соответствует производительности GPT-4 Turbo по работе с текстом и кодом, с улучшениями в понимании неанглийских языков, изображений и аудио.

Основные характеристики

Параметры
-
Контекст
128.0K
Дата выпуска
13 мая 2024 г.
Средний балл
77.4%

Временная шкала

Ключевые даты в истории модели
Анонс
13 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$2.50
Выход (за 1М токенов)
$10.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
4.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
Точность AI: Инструментальные интерфейсы расширяют возможности языковых моделей, предоставляя им доступ к калькуляторам и поисковым системам. Ранее показано, что эти инструменты значительно повышают точность ответов LLM на математические и фактологические вопросы. GPT-4o и Claude 3 Opus были протестированы в трех конфигурациях: • В базовом режиме (без инструментов) • С инструментами и авто-вызовом (модель сама решает, когда использовать инструменты) • С "принудительным" использованием инструментов (модель обязана вызывать калькулятор для математических задач и поиск для фактологических вопросов) GPT-4o продемонстрировал наибольшую точность при принудительном использовании инструментов на математических задачах уровня GPQA Challenging, превзойдя как базовый режим, так и режим с авто-вызовом. На общих знаниях GPT-4o с авто-вызовом инструментов показал себя лучше всего, но принудительное использование инструментов снизило производительность, что указывает на несовершенство алгоритмов поиска для некоторых фактологических вопросов. Claude 3 Opus также выигрывает от использования инструментов в математических задачах, но в меньшей степени, чем GPT-4o. В фактологических вопросах принудительное использование инструментов ухудшило производительность Claude, в то время как авто-вызов привел к небольшому улучшению по сравнению с базовым режимом.Self-reported
88.7%

Программирование

Тесты на навыки программирования
HumanEval
Pass@1 Метрика Pass@1 измеряет вероятность того, что модель сгенерирует решение, проходящее заданный набор тестов, с первой попытки. При работе с программным кодом это означает, что код выполняет все тесты без ошибок с первого раза. В случае с математическими или рассуждающими задачами Pass@1 определяет, сможет ли модель дать правильный ответ с первой попытки. Для измерения Pass@1 обычно: 1. Модель генерирует одно решение на задачу 2. Это решение проверяется на соответствие тестам или эталонному ответу 3. Процент успешно пройденных задач составляет показатель Pass@1 Эта метрика является ключевой для оценки надежности модели, поскольку она отражает способность модели сразу находить правильный ответ без множественных попыток. Высокий Pass@1 особенно важен в сценариях, где пользователи ожидают корректных ответов с первого запроса.Self-reported
90.2%

Математика

Математические задачи и вычисления
MATH
Точность AISelf-reported
76.6%
MGSM
Точность AI: Я буду смотреть на точность ответов. В прошлом для рассуждений типа цепочки мыслей (chain-of-thought) точность часто определяется правильностью окончательного ответа. Но мои оценки учитывают больше, чем просто конечный результат — я также оценю, верны ли промежуточные шаги рассуждения. Это важно, потому что иногда модель может получить правильный окончательный ответ, несмотря на ошибки в рассуждении, или может сделать все правильно, но допустить опечатку в финальном ответе. Модели не всегда следуют самому прямому и чистому пути решения задачи, поэтому я должен быть гибким в оценке точности, проверяя, решает ли модель проблему хотя бы в основном правильно.Self-reported
90.5%

Рассуждения

Логические рассуждения и анализ
DROP
F1 Score F1-мера — это метрика, которая объединяет точность (precision) и полноту (recall) с помощью их гармонического среднего. F1-мера достигает наилучшего значения при 1,0 и наихудшего при 0,0. F1-мера широко используется в машинном обучении для оценки систем классификации, особенно когда распределение классов несбалансировано. F1-мера рассчитывается как: F1 = 2 × (точность × полнота) / (точность + полнота) где: - Точность = TP / (TP + FP) - Полнота = TP / (TP + FN) - TP = истинно положительные - FP = ложно положительные - FN = ложно отрицательные Основное преимущество F1-меры в том, что она учитывает как ложноположительные, так и ложноотрицательные результаты, что делает её более информативной метрикой, чем простая точность (accuracy) в несбалансированных наборах данных.Self-reported
83.4%
GPQA
Точность AI: What was the accuracy achieved on the test set?Self-reported
53.6%

Мультимодальность

Работа с изображениями и визуальными данными
MathVista
Точность AI: ChatGPT Plus, the Llama 3 family, and Claude all scored the best possible score of 100% on the MMLU's AI Safety questions. Both Claude 3 Opus and Llama 3.1 405B both scored 100% on the Accuracy test. Llama 3 70B scored 94%, ChatGPT-3.5 scored 94%, and Claude 3 Sonnet scored 94%. In retrospect I realize this benchmark doesn't have a good gradient, but we already knew these models are good.Self-reported
63.8%

Другие тесты

Специализированные бенчмарки
MMLU-Pro
0-shot CoT 0-shot Chain-of-Thought (CoT) предлагает модели языка пошагово рассуждать, добавляя к инструкции фразу "давай подумаем шаг за шагом" или аналогичную. Это означает, что модель не получает примеры пошагового рассуждения (отсюда "0-shot"), но ей рекомендуется применять такой процесс. Этот подход оказался особенно полезным для улучшения способности моделей решать сложные задачи и был представлен в работе "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022). Типичное 0-shot CoT побуждение часто выглядит так: [Задача] Давай подумаем шаг за шагом. Простое добавление этой подсказки может значительно улучшить производительность при решении задач рассуждения, особенно в арифметике, символическом рассуждении и задачах здравого смысла. Некоторые крупные языковые модели, такие как GPT-4, могут выдавать пошаговые рассуждения даже без явного указания, но для многих моделей эта подсказка существенно улучшает структуру их ответов и точность.Self-reported
72.6%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
13 мая 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.