GPT-4o

Мультимодальная

OpenAI

GPT-4o ('o' означает 'omni') — это мультимодальная модель ИИ, которая принимает текстовые, аудио, изображения и видео входные данные, а генерирует текстовые, аудио и графические выходные данные. Она соответствует производительности GPT-4 Turbo по работе с текстом и кодом, с улучшениями в понимании неанглийских языков, изображений и аудио.

Основные характеристики

Параметры

Контекст

128.0K

Дата выпуска

13 мая 2024 г.

Средний балл

77.4%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

13 мая 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.50

Выход (за 1М токенов)

$10.00

Макс. входящих токенов

128.0K

Макс. исходящих токенов

4.1K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точность AI: Инструментальные интерфейсы расширяют возможности языковых моделей, предоставляя им доступ к калькуляторам и поисковым системам. Ранее показано, что эти инструменты значительно повышают точность ответов LLM на математические и фактологические вопросы. GPT-4o и Claude 3 Opus были протестированы в трех конфигурациях: • В базовом режиме (без инструментов) • С инструментами и авто-вызовом (модель сама решает, когда использовать инструменты) • С "принудительным" использованием инструментов (модель обязана вызывать калькулятор для математических задач и поиск для фактологических вопросов) GPT-4o продемонстрировал наибольшую точность при принудительном использовании инструментов на математических задачах уровня GPQA Challenging, превзойдя как базовый режим, так и режим с авто-вызовом. На общих знаниях GPT-4o с авто-вызовом инструментов показал себя лучше всего, но принудительное использование инструментов снизило производительность, что указывает на несовершенство алгоритмов поиска для некоторых фактологических вопросов. Claude 3 Opus также выигрывает от использования инструментов в математических задачах, но в меньшей степени, чем GPT-4o. В фактологических вопросах принудительное использование инструментов ухудшило производительность Claude, в то время как авто-вызов привел к небольшому улучшению по сравнению с базовым режимом. • Self-reported

88.7%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 Метрика Pass@1 измеряет вероятность того, что модель сгенерирует решение, проходящее заданный набор тестов, с первой попытки. При работе с программным кодом это означает, что код выполняет все тесты без ошибок с первого раза. В случае с математическими или рассуждающими задачами Pass@1 определяет, сможет ли модель дать правильный ответ с первой попытки. Для измерения Pass@1 обычно: 1. Модель генерирует одно решение на задачу 2. Это решение проверяется на соответствие тестам или эталонному ответу 3. Процент успешно пройденных задач составляет показатель Pass@1 Эта метрика является ключевой для оценки надежности модели, поскольку она отражает способность модели сразу находить правильный ответ без множественных попыток. Высокий Pass@1 особенно важен в сценариях, где пользователи ожидают корректных ответов с первого запроса. • Self-reported

90.2%

Математика

Математические задачи и вычисления

MATH

Точность AI • Self-reported

76.6%

MGSM

Точность AI: Я буду смотреть на точность ответов. В прошлом для рассуждений типа цепочки мыслей (chain-of-thought) точность часто определяется правильностью окончательного ответа. Но мои оценки учитывают больше, чем просто конечный результат — я также оценю, верны ли промежуточные шаги рассуждения. Это важно, потому что иногда модель может получить правильный окончательный ответ, несмотря на ошибки в рассуждении, или может сделать все правильно, но допустить опечатку в финальном ответе. Модели не всегда следуют самому прямому и чистому пути решения задачи, поэтому я должен быть гибким в оценке точности, проверяя, решает ли модель проблему хотя бы в основном правильно. • Self-reported

90.5%

Рассуждения

Логические рассуждения и анализ

DROP

F1 Score F1-мера — это метрика, которая объединяет точность (precision) и полноту (recall) с помощью их гармонического среднего. F1-мера достигает наилучшего значения при 1,0 и наихудшего при 0,0. F1-мера широко используется в машинном обучении для оценки систем классификации, особенно когда распределение классов несбалансировано. F1-мера рассчитывается как: F1 = 2 × (точность × полнота) / (точность + полнота) где: - Точность = TP / (TP + FP) - Полнота = TP / (TP + FN) - TP = истинно положительные - FP = ложно положительные - FN = ложно отрицательные Основное преимущество F1-меры в том, что она учитывает как ложноположительные, так и ложноотрицательные результаты, что делает её более информативной метрикой, чем простая точность (accuracy) в несбалансированных наборах данных. • Self-reported

83.4%

GPQA

Точность AI: What was the accuracy achieved on the test set? • Self-reported

53.6%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Точность AI: ChatGPT Plus, the Llama 3 family, and Claude all scored the best possible score of 100% on the MMLU's AI Safety questions. Both Claude 3 Opus and Llama 3.1 405B both scored 100% on the Accuracy test. Llama 3 70B scored 94%, ChatGPT-3.5 scored 94%, and Claude 3 Sonnet scored 94%. In retrospect I realize this benchmark doesn't have a good gradient, but we already knew these models are good. • Self-reported

63.8%

Другие тесты

Специализированные бенчмарки

MMLU-Pro

0-shot CoT 0-shot Chain-of-Thought (CoT) предлагает модели языка пошагово рассуждать, добавляя к инструкции фразу "давай подумаем шаг за шагом" или аналогичную. Это означает, что модель не получает примеры пошагового рассуждения (отсюда "0-shot"), но ей рекомендуется применять такой процесс. Этот подход оказался особенно полезным для улучшения способности моделей решать сложные задачи и был представлен в работе "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022). Типичное 0-shot CoT побуждение часто выглядит так: [Задача] Давай подумаем шаг за шагом. Простое добавление этой подсказки может значительно улучшить производительность при решении задач рассуждения, особенно в арифметике, символическом рассуждении и задачах здравого смысла. Некоторые крупные языковые модели, такие как GPT-4, могут выдавать пошаговые рассуждения даже без явного указания, но для многих моделей эта подсказка существенно улучшает структуру их ответов и точность. • Self-reported

72.6%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

13 мая 2024 г.

Последнее обновление

19 июля 2025 г.

GPT-4o

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-5 mini

GPT-4

GPT-5

GPT-4.5

GPT-5 nano

GPT-4o mini

o3

GPT-4.1 mini