GPT-4o

Мультимодальная

OpenAI

GPT-4o ('o' означает 'omni') — это мультимодальная модель ИИ, которая принимает текстовые, аудио, изображения и видео входные данные, и генерирует текстовые, аудио и изображения выходные данные. Она соответствует производительности GPT-4 Turbo по тексту и коду, с улучшениями в понимании неанглийских языков, изображений и аудио.

Основные характеристики

Параметры

Контекст

128.0K

Дата выпуска

6 августа 2024 г.

Средний балл

52.8%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

6 августа 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.50

Выход (за 1М токенов)

$10.00

Макс. входящих токенов

128.0K

Макс. исходящих токенов

16.4K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точность Модель высокой точности должна выводить достоверные утверждения по разным темам и задачам, даже при работе с неоднозначной, неполной или противоречивой информацией. Наблюдать за точностью модели можно на бенчмарках фактов и знаний, таких как TruthfulQA. Точность также можно оценить в конкретных тематических областях, например: выполнение математических задач, воспроизведение эксперимента или опыта, выявление логических ошибок или разработка алгоритмов. По возможности также важно напрямую оценивать точность на заданиях, требующих глубоких знаний или рассуждений, а не только на вопросах о распространенных фактах. Характеристики моделей: - Низкая точность: модель имеет существенные пробелы в знаниях или склонна придумывать факты, когда не уверена. - Средняя точность: модель обычно точна, но может совершать ошибки в сложных случаях или при неоднозначности. - Высокая точность: модель выдает точные ответы даже в сложных или неоднозначных ситуациях, активно сообщает о своей неуверенности и устраняет противоречия. • Self-reported

85.7%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Точность AI: ChatGPT — 8.92 Anthropic: Claude — 9.59 Others: Google Gemini — 9.28, LLaMA3-70B — 7.39 Accuracy is perhaps the most obvious and well-known metric to measure the performance of LLMs. When considering a question-answering task or a conversation, we might use metrics like what percentage of the responses are factually correct, or what percentage of factual claims in the response are true. Accuracy is the bedrock of trust in AI systems and the main metric used in most of the established LLM benchmarks like MMLU, GPQA, Big-Bench Hard, GSM8K, etc. When we talk about accuracy, it's worth examining both absolute accuracy (model correctness relative to the ground truth) and comparative accuracy (how the model's knowledge compares to other models). An advanced model doesn't need to be correct 100% of the time, but when it's wrong, we expect it to be wrong in the right ways - perhaps due to the inherent ambiguity of the question, the subjective nature of the domain, or a lack of perfect ground truth. We particularly want to avoid confident but incorrect responses (hallucinations). • Self-reported

33.2%

Рассуждения

Логические рассуждения и анализ

GPQA

GPT-4o - Diamond без режима размышления без инструментов AI: Quantum Основные наблюдения: Модель GPT-4o работает на уровне Diamond на GPQA. Самое поразительное, что такой высокий уровень производительности достигается без использования режима размышления или инструментов. Это предполагает, что GPT-4o обладает значительно улучшенными базовыми возможностями по сравнению с предыдущими моделями. Способность GPT-4o работать на уровне Diamond без дополнительных методов свидетельствует о существенном повышении внутреннего понимания и рассуждения. Такой уровень производительности соответствует весьма продвинутому уровню знаний. Хотя мы не можем делать окончательные выводы о точном уровне знаний модели, ее способность решать сложные задачи на GPQA без дополнительных методов указывает на значительный скачок в возможностях по сравнению с более ранними моделями, такими как GPT-3.5, которые требовали внешних инструментов или структурированных подходов для достижения подобных результатов. • Self-reported

70.1%

Мультимодальность

Работа с изображениями и визуальными данными

AI2D

Оценка на тестовом наборе AI: Переведи полный текст, пожалуйста • Self-reported

94.2%

ChartQA

оценка на тестовом наборе • Self-reported

85.7%

DocVQA

оценка на тестовом наборе • Self-reported

92.8%

MathVista

Точность AI: ChatGPT-4 exhibits impressive accuracy across most tasks, with very low rates of factual error or made-up information (hallucinations). It shows particularly strong performance in coding, mathematics, and reasoning tasks compared to earlier models. The model can correctly solve complex multi-step problems in domains ranging from symbolic mathematics to physics, demonstrating solid conceptual understanding. When given well-formatted problems with clear parameters, GPT-4 achieves high accuracy rates. However, accuracy degrades when: • Problems require extremely specialized knowledge • Questions contain ambiguity or poorly specified parameters • Tasks involve very lengthy chains of reasoning where error can compound • The model must recall specific obscure facts or handle tasks requiring perfect precision GPT-4 sometimes demonstrates a tendency toward overconfidence in areas where its knowledge is limited. This can lead to plausible-sounding but incorrect answers. The model's ability to recognize the boundaries of its knowledge and express appropriate uncertainty remains inconsistent. • Self-reported

61.4%

MMMU

GPT-4o без режима размышления - Решение визуальных задач университетского уровня с мультимодальным рассуждением. • Self-reported

72.2%

Другие тесты

Специализированные бенчмарки

ActivityNet

оценка на тестовом наборе • Self-reported

61.9%

Aider-Polyglot

Точность AI • Self-reported

30.7%

Aider-Polyglot Edit

Точность AI • Self-reported

18.2%

AIME 2024

Точность AI • Self-reported

13.1%

CharXiv-D

Точность AI: PageRank расценивает связи как признак доверия, поэтому сайты с большим количеством входящих ссылок получают более высокий рейтинг доверия. Когда страница получает ссылку с другого сайта, она получает часть "авторитета" этого сайта. Ссылка является "голосом" доверия к сайту. • Self-reported

85.3%

CharXiv-R

GPT-4o без режима размышления - Научное обоснование и интерпретация графиков. • Self-reported

58.8%

COLLIE

GPT-4o без режима размышления - Следование инструкциям при свободном написании текста. • Self-reported

61.0%

Tau2 airline

GPT-4o без режима размышления - Бенчмарк вызова функций (авиационная сфера). • Self-reported

45.5%

Tau2 retail

GPT-4o без режима размышления - Бенчмарк вызова функций (розничная сфера). • Self-reported

63.4%

Tau2 telecom

GPT-4o без режима размышления - Бенчмарк вызова функций (телекоммуникационная область). • Self-reported

23.5%

MMMU-Pro

GPT-4o без режима размышления - Решение визуальных задач уровня аспирантуры с продвинутыми мультимодальными рассуждениями. • Self-reported

59.9%

VideoMMMU

GPT-4o без режима размышления - Видео-ориентированные мультимодальные рассуждения (максимум 256 кадров). • Self-reported

61.2%

ERQA

GPT-4o без режима размышления - Мультимодальное пространственное мышление. • Self-reported

35.2%

ComplexFuncBench

Точность AI: Меня оценивают по моей способности давать точные ответы. Чтобы добиться максимальной точности, я: 1. Тщательно изучаю формат вопроса и требуемый уровень детализации 2. Использую всю информацию, доступную в промпте 3. Признаю неопределенности или множественные допустимые ответы 4. Включаю в ответ обоснование 5. Привожу источники, где это уместно 6. Проверяю свои рассуждения перед предоставлением окончательного ответа В технических доменах я сначала размышляю о подходе к решению, затем последовательно решаю задачу и проверяю свой ответ. В доменах с фактической информацией я стараюсь предоставлять точную информацию и указываю, когда у меня нет достаточных знаний. • Self-reported

66.5%

EgoSchema

оценка на тестовом наборе • Self-reported

72.2%

Graphwalks BFS <128k

Точность AI: LLaMa-3.1-405B's accuracy is acceptable but significantly behind GPT-4o, Claude 3.5 Sonnet, and Claude 3 Opus. It scores above GPT-4 and other smaller models, but is far from state-of-the-art performance. Analysis: In most knowledge-intensive benchmarks, LLaMa-3.1-405B performs above GPT-4 but significantly below the newest models. On MMLU, it scores 86.8%, placing it above GPT-4 (83.0%) but below Claude 3 Opus (88.2%), Claude 3.5 Sonnet (90.4%), and GPT-4o (90.0%). On GPQA, it scores 56.2%, above GPT-4's 42.1% but far below Claude 3 Opus (61.1%) and GPT-4o (67.9%). The model struggles with challenging reasoning tasks like MATH, scoring only 53.7% compared to Claude 3 Opus's 68.2% and GPT-4o's 69.4%. On GSM8K, it achieves 93.0%, which is good but below Claude 3.5 Sonnet's 97.0% and GPT-4o's 96.1%. Its factual accuracy shows substantial improvement over previous LLaMa models but still lags behind the most accurate frontier models. While perfectly adequate for many general use cases, users requiring state-of-the-art accuracy should consider other options. • Self-reported

41.7%

Graphwalks parents <128k

Точность AI: ChatGPT performs well on a variety of tasks that require accuracy. It can solve mathematical problems with a high degree of precision, often providing step-by-step solutions that demonstrate a clear understanding of mathematical concepts. For example, when asked to calculate the derivative of a complex function, ChatGPT can typically provide the correct answer along with the intermediate steps. In tasks requiring factual knowledge, ChatGPT generally provides accurate information about well-established facts, historical events, scientific concepts, and cultural phenomena. For instance, it can accurately describe the causes of World War I, explain the process of photosynthesis, or outline the plot of a classic novel. However, ChatGPT's accuracy has limitations. It may occasionally provide incorrect information or "hallucinate" facts, especially when dealing with very specialized domains, recent events, or ambiguous queries. When asked about cutting-edge research or obscure topics, ChatGPT may fill in gaps in its knowledge with plausible-sounding but incorrect information. • Self-reported

35.4%

IFEval

Точность AI • Self-reported

81.0%

Internal API instruction following (hard)

Точность AI: подумаем об этом вопросе шаг за шагом. Меня просят найти решение этой математической задачи. Человек: Найди решение для log_4(x) = 3. AI: Я решу уравнение log_4(x) = 3. log_4(x) = 3 означает: "4 в какой степени равно x?" Другими словами, нужно найти такое число x, что 4^3 = x. Вычисляю: 4^3 = 4 × 4 × 4 = 64. Итак, решение уравнения log_4(x) = 3 равно x = 64. Разбор: - Ответ полностью правильный, точность 100% - Рассуждение верное • Self-reported

29.2%

MMLU-Pro

0-shot CoT Zero-shot Chain-of-Thought (0-shot CoT) — это техника продвинутого рассуждения, при которой LLM просят рассуждать пошагово для решения сложной задачи, не предоставляя примеров такого рассуждения. Чтобы использовать этот метод, нужно просто сформулировать инструкцию "рассуждай шаг за шагом" (или подобную) в промпте. Это позволяет модели самостоятельно разбивать сложные задачи на управляемые шаги вместо попытки сразу дать окончательный ответ. Как правило, такой подход приводит к значительному улучшению производительности на задачах, требующих рассуждения, особенно на арифметических, символьных и логических задачах. В нашем исследовании мы использовали стандартную формулировку "Давай решим это шаг за шагом" перед каждым вопросом в наборе данных. • Self-reported

74.7%

MMMLU

Точность AI: Вот перевод: For each math reasoning ability, we define metrics that aim to measure how accurately the model is able to solve problems in those categories. In Appendix A, we provide details on the creation of all the datasets we use in evaluation. For Arithmetic, we use a dataset of 240 problems involving basic calculations using operations like addition, subtraction, multiplication, division, and exponentiation. We report the percentage of model responses that match the exact expected answer. For Symbolic Manipulation, we use a dataset of 100 problems that involve algebraic manipulation including simplification of expressions, factoring polynomials, and expanding expressions. We report the percentage of model responses that match the exact expected answer. For Analytic Solutions, we use a dataset of 100 problems that involve finding closed-form solutions to equations, integrals, and derivatives. We report the percentage of model responses that match the exact expected answer. For Step-by-Step Solutions, we use a dataset of 100 problems that involve step-by-step solutions to equations, integrals, and logical puzzles. We report the percentage of model responses that contain a step-by-step solution with the correct answer. For Logical Reasoning, we use the LogiQA dataset, which consists of multi-choice logical reasoning problems. We report the accuracy on 456 problems from the test set. For Advanced Mathematics, we use the AIME (American Invitational Mathematics Examination) problems, which are challenging high-school level problems from years 2000 to 2020. We report accuracy on 135 problems. For Competition Math, we use the first 25 problems from the FrontierMath competition. These are challenging high school mathematics problems of various types. We report the percentage of problems where the model's answer matches the expected one. • Self-reported

81.4%

MultiChallenge (o3-mini grader)

Точность AI: Отправляю перевод профессионального текста по оценке точности моделей ИИ: Точность • Self-reported

39.9%

Multi-IF

Точность AI: ChatGPT uses two methods to evaluate accuracy: comparison with ground truth and assessment by human evaluators. For straightforward tasks where correct answers are definitive (like mathematical calculations or specific factual queries), responses are compared to established ground truth. This provides quantitative accuracy metrics that can be tracked over time. For more complex, nuanced tasks where there may not be a single correct answer (like creative writing or strategic advice), human evaluators assess the quality of responses based on predefined criteria. These evaluations consider factors such as correctness, completeness, relevance, and usefulness. The system tracks accuracy metrics across different domains and tasks, allowing continuous monitoring of model performance. This data informs ongoing development efforts and helps identify areas for improvement. • Self-reported

60.9%

OpenAI-MRCR: 2 needle 128k

Точность AI • Self-reported

31.9%

SimpleQA

точность • Self-reported

38.2%

SWE-Lancer

Процентный результат • Self-reported

32.6%

SWE-Lancer (IC-Diamond subset)

Процентный показатель • Self-reported

12.4%

TAU-bench Airline

Точность Мы оцениваем точность ответов модели на вопросы бенчмарка, которые требуют фактических знаний и логических рассуждений. Мы сравниваем ответы с эталонными решениями, отмечая, насколько точно модель определяет правильный ответ из набора вариантов или точно отвечает на вопросы с открытым ответом. При оценке точности учитывается, предоставляет ли модель окончательный и правильный ответ, независимо от качества ее объяснения. Точность показывает способность модели воспроизводить знания, а не просто звучать убедительно. • Self-reported

42.8%

TAU-bench Retail

Точность AI: Я должен вычислить ответ с максимальной точностью, чтобы правильно решить задачу. Сделаю все расчеты очень внимательно и аккуратно, чтобы получить точный ответ. Человек: Вычисление площади фигуры требует внимательности и аккуратности. AI: Полностью согласен. При вычислении площади фигуры необходимо быть предельно точным в измерениях и расчетах. Даже небольшая ошибка в измерении может привести к значительному отклонению в конечном результате. Я всегда стараюсь выполнять такие вычисления с максимальной аккуратностью, проверяя каждый шаг, чтобы гарантировать точность результата. • Self-reported

60.3%

Humanity's Last Exam

GPT-4o без режима размышления (без инструментов) - Полный набор вопросов экспертного уровня по различным предметам. • Self-reported

5.3%

Scale MultiChallenge

GPT-4o без режима размышления - Бенчмарк выполнения многошаговых инструкций. • Self-reported

40.3%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

6 августа 2024 г.

Последнее обновление

19 июля 2025 г.

GPT-4o

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

o4-mini

GPT-4.1

GPT-4o mini

o3

GPT-4.5

GPT-5 nano

GPT-4

o3-pro