GPT-4o
МультимодальнаяGPT-4o ('o' означает 'omni') — это мультимодальная модель ИИ, которая принимает текстовые, аудио, изображения и видео входные данные, а генерирует текстовые, аудио и графические выходные данные. Она соответствует производительности GPT-4 Turbo по работе с текстом и кодом, с улучшениями в понимании неанглийских языков, изображений и аудио.
Основные характеристики
Параметры
-
Контекст
128.0K
Дата выпуска
13 мая 2024 г.
Средний балл
77.4%
Временная шкала
Ключевые даты в истории модели
Анонс
13 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$2.50
Выход (за 1М токенов)
$10.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
4.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Точность
AI: Инструментальные интерфейсы расширяют возможности языковых моделей, предоставляя им доступ к калькуляторам и поисковым системам. Ранее показано, что эти инструменты значительно повышают точность ответов LLM на математические и фактологические вопросы.
GPT-4o и Claude 3 Opus были протестированы в трех конфигурациях:
• В базовом режиме (без инструментов)
• С инструментами и авто-вызовом (модель сама решает, когда использовать инструменты)
• С "принудительным" использованием инструментов (модель обязана вызывать калькулятор для математических задач и поиск для фактологических вопросов)
GPT-4o продемонстрировал наибольшую точность при принудительном использовании инструментов на математических задачах уровня GPQA Challenging, превзойдя как базовый режим, так и режим с авто-вызовом. На общих знаниях GPT-4o с авто-вызовом инструментов показал себя лучше всего, но принудительное использование инструментов снизило производительность, что указывает на несовершенство алгоритмов поиска для некоторых фактологических вопросов.
Claude 3 Opus также выигрывает от использования инструментов в математических задачах, но в меньшей степени, чем GPT-4o. В фактологических вопросах принудительное использование инструментов ухудшило производительность Claude, в то время как авто-вызов привел к небольшому улучшению по сравнению с базовым режимом. • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Pass@1
Метрика Pass@1 измеряет вероятность того, что модель сгенерирует решение, проходящее заданный набор тестов, с первой попытки. При работе с программным кодом это означает, что код выполняет все тесты без ошибок с первого раза.
В случае с математическими или рассуждающими задачами Pass@1 определяет, сможет ли модель дать правильный ответ с первой попытки.
Для измерения Pass@1 обычно:
1. Модель генерирует одно решение на задачу
2. Это решение проверяется на соответствие тестам или эталонному ответу
3. Процент успешно пройденных задач составляет показатель Pass@1
Эта метрика является ключевой для оценки надежности модели, поскольку она отражает способность модели сразу находить правильный ответ без множественных попыток. Высокий Pass@1 особенно важен в сценариях, где пользователи ожидают корректных ответов с первого запроса. • Self-reported
Математика
Математические задачи и вычисления
MATH
Точность
AI • Self-reported
MGSM
Точность
AI: Я буду смотреть на точность ответов. В прошлом для рассуждений типа цепочки мыслей (chain-of-thought) точность часто определяется правильностью окончательного ответа. Но мои оценки учитывают больше, чем просто конечный результат — я также оценю, верны ли промежуточные шаги рассуждения. Это важно, потому что иногда модель может получить правильный окончательный ответ, несмотря на ошибки в рассуждении, или может сделать все правильно, но допустить опечатку в финальном ответе.
Модели не всегда следуют самому прямому и чистому пути решения задачи, поэтому я должен быть гибким в оценке точности, проверяя, решает ли модель проблему хотя бы в основном правильно. • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
F1 Score
F1-мера — это метрика, которая объединяет точность (precision) и полноту (recall) с помощью их гармонического среднего. F1-мера достигает наилучшего значения при 1,0 и наихудшего при 0,0. F1-мера широко используется в машинном обучении для оценки систем классификации, особенно когда распределение классов несбалансировано.
F1-мера рассчитывается как:
F1 = 2 × (точность × полнота) / (точность + полнота)
где:
- Точность = TP / (TP + FP)
- Полнота = TP / (TP + FN)
- TP = истинно положительные
- FP = ложно положительные
- FN = ложно отрицательные
Основное преимущество F1-меры в том, что она учитывает как ложноположительные, так и ложноотрицательные результаты, что делает её более информативной метрикой, чем простая точность (accuracy) в несбалансированных наборах данных. • Self-reported
GPQA
Точность
AI: What was the accuracy achieved on the test set? • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MathVista
Точность
AI: ChatGPT Plus, the Llama 3 family, and Claude all scored the best possible score of 100% on the MMLU's AI Safety questions.
Both Claude 3 Opus and Llama 3.1 405B both scored 100% on the Accuracy test. Llama 3 70B scored 94%, ChatGPT-3.5 scored 94%, and Claude 3 Sonnet scored 94%.
In retrospect I realize this benchmark doesn't have a good gradient, but we already knew these models are good. • Self-reported
Другие тесты
Специализированные бенчмарки
MMLU-Pro
0-shot CoT
0-shot Chain-of-Thought (CoT) предлагает модели языка пошагово рассуждать, добавляя к инструкции фразу "давай подумаем шаг за шагом" или аналогичную. Это означает, что модель не получает примеры пошагового рассуждения (отсюда "0-shot"), но ей рекомендуется применять такой процесс.
Этот подход оказался особенно полезным для улучшения способности моделей решать сложные задачи и был представлен в работе "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022).
Типичное 0-shot CoT побуждение часто выглядит так:
[Задача]
Давай подумаем шаг за шагом.
Простое добавление этой подсказки может значительно улучшить производительность при решении задач рассуждения, особенно в арифметике, символическом рассуждении и задачах здравого смысла. Некоторые крупные языковые модели, такие как GPT-4, могут выдавать пошаговые рассуждения даже без явного указания, но для многих моделей эта подсказка существенно улучшает структуру их ответов и точность. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
13 мая 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGPT-5 mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.25/1M токенов
GPT-4
OpenAI
MM
Лучший скор:1.0 (ARC)
Релиз:июнь 2023 г.
Цена:$30.00/1M токенов
GPT-5
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:авг. 2025 г.
Цена:$1.25/1M токенов
GPT-4.5
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:февр. 2025 г.
Цена:$75.00/1M токенов
GPT-5 nano
OpenAI
MM
Лучший скор:0.7 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.05/1M токенов
GPT-4o mini
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
o3
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
GPT-4.1 mini
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.40/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.