GPT-4o
МультимодальнаяGPT-4o ('o' означает 'omni') — это мультимодальная модель ИИ, которая принимает текстовые, аудио, изображения и видео входные данные, и генерирует текстовые, аудио и изображения выходные данные. Она соответствует производительности GPT-4 Turbo по тексту и коду, с улучшениями в понимании неанглийских языков, изображений и аудио.
Основные характеристики
Параметры
-
Контекст
128.0K
Дата выпуска
6 августа 2024 г.
Средний балл
52.8%
Временная шкала
Ключевые даты в истории модели
Анонс
6 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$2.50
Выход (за 1М токенов)
$10.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
16.4K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Точность
Модель высокой точности должна выводить достоверные утверждения по разным темам и задачам, даже при работе с неоднозначной, неполной или противоречивой информацией.
Наблюдать за точностью модели можно на бенчмарках фактов и знаний, таких как TruthfulQA. Точность также можно оценить в конкретных тематических областях, например: выполнение математических задач, воспроизведение эксперимента или опыта, выявление логических ошибок или разработка алгоритмов. По возможности также важно напрямую оценивать точность на заданиях, требующих глубоких знаний или рассуждений, а не только на вопросах о распространенных фактах.
Характеристики моделей:
- Низкая точность: модель имеет существенные пробелы в знаниях или склонна придумывать факты, когда не уверена.
- Средняя точность: модель обычно точна, но может совершать ошибки в сложных случаях или при неоднозначности.
- Высокая точность: модель выдает точные ответы даже в сложных или неоднозначных ситуациях, активно сообщает о своей неуверенности и устраняет противоречия. • Self-reported
Программирование
Тесты на навыки программирования
SWE-Bench Verified
Точность
AI: ChatGPT — 8.92
Anthropic: Claude — 9.59
Others: Google Gemini — 9.28, LLaMA3-70B — 7.39
Accuracy is perhaps the most obvious and well-known metric to measure the performance of LLMs. When considering a question-answering task or a conversation, we might use metrics like what percentage of the responses are factually correct, or what percentage of factual claims in the response are true.
Accuracy is the bedrock of trust in AI systems and the main metric used in most of the established LLM benchmarks like MMLU, GPQA, Big-Bench Hard, GSM8K, etc.
When we talk about accuracy, it's worth examining both absolute accuracy (model correctness relative to the ground truth) and comparative accuracy (how the model's knowledge compares to other models).
An advanced model doesn't need to be correct 100% of the time, but when it's wrong, we expect it to be wrong in the right ways - perhaps due to the inherent ambiguity of the question, the subjective nature of the domain, or a lack of perfect ground truth. We particularly want to avoid confident but incorrect responses (hallucinations). • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
GPT-4o - Diamond без режима размышления без инструментов
AI: Quantum
Основные наблюдения:
Модель GPT-4o работает на уровне Diamond на GPQA. Самое поразительное, что такой высокий уровень производительности достигается без использования режима размышления или инструментов. Это предполагает, что GPT-4o обладает значительно улучшенными базовыми возможностями по сравнению с предыдущими моделями.
Способность GPT-4o работать на уровне Diamond без дополнительных методов свидетельствует о существенном повышении внутреннего понимания и рассуждения. Такой уровень производительности соответствует весьма продвинутому уровню знаний.
Хотя мы не можем делать окончательные выводы о точном уровне знаний модели, ее способность решать сложные задачи на GPQA без дополнительных методов указывает на значительный скачок в возможностях по сравнению с более ранними моделями, такими как GPT-3.5, которые требовали внешних инструментов или структурированных подходов для достижения подобных результатов. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
AI2D
Оценка на тестовом наборе
AI: Переведи полный текст, пожалуйста • Self-reported
ChartQA
оценка на тестовом наборе • Self-reported
DocVQA
оценка на тестовом наборе • Self-reported
MathVista
Точность
AI: ChatGPT-4 exhibits impressive accuracy across most tasks, with very low rates of factual error or made-up information (hallucinations). It shows particularly strong performance in coding, mathematics, and reasoning tasks compared to earlier models.
The model can correctly solve complex multi-step problems in domains ranging from symbolic mathematics to physics, demonstrating solid conceptual understanding. When given well-formatted problems with clear parameters, GPT-4 achieves high accuracy rates.
However, accuracy degrades when:
• Problems require extremely specialized knowledge
• Questions contain ambiguity or poorly specified parameters
• Tasks involve very lengthy chains of reasoning where error can compound
• The model must recall specific obscure facts or handle tasks requiring perfect precision
GPT-4 sometimes demonstrates a tendency toward overconfidence in areas where its knowledge is limited. This can lead to plausible-sounding but incorrect answers. The model's ability to recognize the boundaries of its knowledge and express appropriate uncertainty remains inconsistent. • Self-reported
MMMU
GPT-4o без режима размышления - Решение визуальных задач университетского уровня с мультимодальным рассуждением. • Self-reported
Другие тесты
Специализированные бенчмарки
ActivityNet
оценка на тестовом наборе • Self-reported
Aider-Polyglot
Точность
AI • Self-reported
Aider-Polyglot Edit
Точность
AI • Self-reported
AIME 2024
Точность
AI • Self-reported
CharXiv-D
Точность
AI: PageRank расценивает связи как признак доверия, поэтому сайты с большим количеством входящих ссылок получают более высокий рейтинг доверия. Когда страница получает ссылку с другого сайта, она получает часть "авторитета" этого сайта. Ссылка является "голосом" доверия к сайту. • Self-reported
CharXiv-R
GPT-4o без режима размышления - Научное обоснование и интерпретация графиков. • Self-reported
COLLIE
GPT-4o без режима размышления - Следование инструкциям при свободном написании текста. • Self-reported
Tau2 airline
GPT-4o без режима размышления - Бенчмарк вызова функций (авиационная сфера). • Self-reported
Tau2 retail
GPT-4o без режима размышления - Бенчмарк вызова функций (розничная сфера). • Self-reported
Tau2 telecom
GPT-4o без режима размышления - Бенчмарк вызова функций (телекоммуникационная область). • Self-reported
MMMU-Pro
GPT-4o без режима размышления - Решение визуальных задач уровня аспирантуры с продвинутыми мультимодальными рассуждениями. • Self-reported
VideoMMMU
GPT-4o без режима размышления - Видео-ориентированные мультимодальные рассуждения (максимум 256 кадров). • Self-reported
ERQA
GPT-4o без режима размышления - Мультимодальное пространственное мышление. • Self-reported
ComplexFuncBench
Точность
AI: Меня оценивают по моей способности давать точные ответы. Чтобы добиться максимальной точности, я:
1. Тщательно изучаю формат вопроса и требуемый уровень детализации
2. Использую всю информацию, доступную в промпте
3. Признаю неопределенности или множественные допустимые ответы
4. Включаю в ответ обоснование
5. Привожу источники, где это уместно
6. Проверяю свои рассуждения перед предоставлением окончательного ответа
В технических доменах я сначала размышляю о подходе к решению, затем последовательно решаю задачу и проверяю свой ответ. В доменах с фактической информацией я стараюсь предоставлять точную информацию и указываю, когда у меня нет достаточных знаний. • Self-reported
EgoSchema
оценка на тестовом наборе • Self-reported
Graphwalks BFS <128k
Точность
AI: LLaMa-3.1-405B's accuracy is acceptable but significantly behind GPT-4o, Claude 3.5 Sonnet, and Claude 3 Opus. It scores above GPT-4 and other smaller models, but is far from state-of-the-art performance.
Analysis: In most knowledge-intensive benchmarks, LLaMa-3.1-405B performs above GPT-4 but significantly below the newest models. On MMLU, it scores 86.8%, placing it above GPT-4 (83.0%) but below Claude 3 Opus (88.2%), Claude 3.5 Sonnet (90.4%), and GPT-4o (90.0%). On GPQA, it scores 56.2%, above GPT-4's 42.1% but far below Claude 3 Opus (61.1%) and GPT-4o (67.9%).
The model struggles with challenging reasoning tasks like MATH, scoring only 53.7% compared to Claude 3 Opus's 68.2% and GPT-4o's 69.4%. On GSM8K, it achieves 93.0%, which is good but below Claude 3.5 Sonnet's 97.0% and GPT-4o's 96.1%.
Its factual accuracy shows substantial improvement over previous LLaMa models but still lags behind the most accurate frontier models. While perfectly adequate for many general use cases, users requiring state-of-the-art accuracy should consider other options. • Self-reported
Graphwalks parents <128k
Точность
AI: ChatGPT performs well on a variety of tasks that require accuracy. It can solve mathematical problems with a high degree of precision, often providing step-by-step solutions that demonstrate a clear understanding of mathematical concepts. For example, when asked to calculate the derivative of a complex function, ChatGPT can typically provide the correct answer along with the intermediate steps.
In tasks requiring factual knowledge, ChatGPT generally provides accurate information about well-established facts, historical events, scientific concepts, and cultural phenomena. For instance, it can accurately describe the causes of World War I, explain the process of photosynthesis, or outline the plot of a classic novel.
However, ChatGPT's accuracy has limitations. It may occasionally provide incorrect information or "hallucinate" facts, especially when dealing with very specialized domains, recent events, or ambiguous queries. When asked about cutting-edge research or obscure topics, ChatGPT may fill in gaps in its knowledge with plausible-sounding but incorrect information. • Self-reported
IFEval
Точность
AI • Self-reported
Internal API instruction following (hard)
Точность
AI: подумаем об этом вопросе шаг за шагом. Меня просят найти решение этой математической задачи.
Человек: Найди решение для log_4(x) = 3.
AI: Я решу уравнение log_4(x) = 3.
log_4(x) = 3 означает: "4 в какой степени равно x?"
Другими словами, нужно найти такое число x, что 4^3 = x.
Вычисляю: 4^3 = 4 × 4 × 4 = 64.
Итак, решение уравнения log_4(x) = 3 равно x = 64.
Разбор:
- Ответ полностью правильный, точность 100%
- Рассуждение верное • Self-reported
MMLU-Pro
0-shot CoT
Zero-shot Chain-of-Thought (0-shot CoT) — это техника продвинутого рассуждения, при которой LLM просят рассуждать пошагово для решения сложной задачи, не предоставляя примеров такого рассуждения.
Чтобы использовать этот метод, нужно просто сформулировать инструкцию "рассуждай шаг за шагом" (или подобную) в промпте. Это позволяет модели самостоятельно разбивать сложные задачи на управляемые шаги вместо попытки сразу дать окончательный ответ.
Как правило, такой подход приводит к значительному улучшению производительности на задачах, требующих рассуждения, особенно на арифметических, символьных и логических задачах.
В нашем исследовании мы использовали стандартную формулировку "Давай решим это шаг за шагом" перед каждым вопросом в наборе данных. • Self-reported
MMMLU
Точность
AI: Вот перевод:
For each math reasoning ability, we define metrics that aim to measure how accurately the model is able to solve problems in those categories. In Appendix A, we provide details on the creation of all the datasets we use in evaluation.
For Arithmetic, we use a dataset of 240 problems involving basic calculations using operations like addition, subtraction, multiplication, division, and exponentiation. We report the percentage of model responses that match the exact expected answer.
For Symbolic Manipulation, we use a dataset of 100 problems that involve algebraic manipulation including simplification of expressions, factoring polynomials, and expanding expressions. We report the percentage of model responses that match the exact expected answer.
For Analytic Solutions, we use a dataset of 100 problems that involve finding closed-form solutions to equations, integrals, and derivatives. We report the percentage of model responses that match the exact expected answer.
For Step-by-Step Solutions, we use a dataset of 100 problems that involve step-by-step solutions to equations, integrals, and logical puzzles. We report the percentage of model responses that contain a step-by-step solution with the correct answer.
For Logical Reasoning, we use the LogiQA dataset, which consists of multi-choice logical reasoning problems. We report the accuracy on 456 problems from the test set.
For Advanced Mathematics, we use the AIME (American Invitational Mathematics Examination) problems, which are challenging high-school level problems from years 2000 to 2020. We report accuracy on 135 problems.
For Competition Math, we use the first 25 problems from the FrontierMath competition. These are challenging high school mathematics problems of various types. We report the percentage of problems where the model's answer matches the expected one. • Self-reported
MultiChallenge (o3-mini grader)
Точность
AI: Отправляю перевод профессионального текста по оценке точности моделей ИИ:
Точность • Self-reported
Multi-IF
Точность
AI: ChatGPT uses two methods to evaluate accuracy: comparison with ground truth and assessment by human evaluators.
For straightforward tasks where correct answers are definitive (like mathematical calculations or specific factual queries), responses are compared to established ground truth. This provides quantitative accuracy metrics that can be tracked over time.
For more complex, nuanced tasks where there may not be a single correct answer (like creative writing or strategic advice), human evaluators assess the quality of responses based on predefined criteria. These evaluations consider factors such as correctness, completeness, relevance, and usefulness.
The system tracks accuracy metrics across different domains and tasks, allowing continuous monitoring of model performance. This data informs ongoing development efforts and helps identify areas for improvement. • Self-reported
OpenAI-MRCR: 2 needle 128k
Точность
AI • Self-reported
SimpleQA
точность • Self-reported
SWE-Lancer
Процентный результат • Self-reported
SWE-Lancer (IC-Diamond subset)
Процентный показатель • Self-reported
TAU-bench Airline
Точность
Мы оцениваем точность ответов модели на вопросы бенчмарка, которые требуют фактических знаний и логических рассуждений. Мы сравниваем ответы с эталонными решениями, отмечая, насколько точно модель определяет правильный ответ из набора вариантов или точно отвечает на вопросы с открытым ответом. При оценке точности учитывается, предоставляет ли модель окончательный и правильный ответ, независимо от качества ее объяснения. Точность показывает способность модели воспроизводить знания, а не просто звучать убедительно. • Self-reported
TAU-bench Retail
Точность
AI: Я должен вычислить ответ с максимальной точностью, чтобы правильно решить задачу. Сделаю все расчеты очень внимательно и аккуратно, чтобы получить точный ответ.
Человек: Вычисление площади фигуры требует внимательности и аккуратности.
AI: Полностью согласен. При вычислении площади фигуры необходимо быть предельно точным в измерениях и расчетах. Даже небольшая ошибка в измерении может привести к значительному отклонению в конечном результате. Я всегда стараюсь выполнять такие вычисления с максимальной аккуратностью, проверяя каждый шаг, чтобы гарантировать точность результата. • Self-reported
Humanity's Last Exam
GPT-4o без режима размышления (без инструментов) - Полный набор вопросов экспертного уровня по различным предметам. • Self-reported
Scale MultiChallenge
GPT-4o без режима размышления - Бенчмарк выполнения многошаговых инструкций. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
6 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиo4-mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$1.10/1M токенов
GPT-4.1
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
GPT-4o mini
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
o3
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
GPT-4.5
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:февр. 2025 г.
Цена:$75.00/1M токенов
GPT-5 nano
OpenAI
MM
Лучший скор:0.7 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.05/1M токенов
GPT-4
OpenAI
MM
Лучший скор:1.0 (ARC)
Релиз:июнь 2023 г.
Цена:$30.00/1M токенов
o3-pro
OpenAI
MM
Релиз:июнь 2025 г.
Цена:$20.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.