GPT-4.5

Мультимодальная

OpenAI

GPT-4.5 — это наиболее продвинутая модель OpenAI, предлагающая улучшенные возможности рассуждения, программирования и творчества с более быстрой производительностью и расширенной обработкой контекста по сравнению с GPT-4. Модель отличается усовершенствованным следованием инструкциям, сниженным уровнем галлюцинаций и повышенной фактической точностью.

Основные характеристики

Параметры

Контекст

128.0K

Дата выпуска

27 февраля 2025 г.

Средний балл

63.1%

API документация Репозиторий Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

27 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$75.00

Выход (за 1М токенов)

$150.00

Макс. входящих токенов

128.0K

Макс. исходящих токенов

4.1K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точность в тестах с множественным выбором AI При тестировании моделей с задачами, имеющими множественный выбор ответов, можно просто посмотреть, какой вариант модель считает правильным, и сравнить с правильным ответом. Такая оценка обычно используется на бенчмарках вроде MMLU. Особенно полезно: Когда вы сравниваете несколько моделей между собой и рассматриваете широкий спектр областей знаний. Ограничения: Дает ограниченное представление о глубине понимания модели. Модель может выбрать правильный ответ на основе поверхностных паттернов, даже не понимая задачу. • Self-reported

90.8%

Программирование

Тесты на навыки программирования

HumanEval

Pass@1 Метрика оценки, которая измеряет долю задач, решаемых моделью искусственного интеллекта с первой попытки без ошибок. Более высокое значение Pass@1 указывает на лучшую производительность модели. Данная метрика важна для понимания способности модели генерировать правильные ответы без необходимости делать несколько попыток. Она часто используется при оценке моделей на задачах программирования, математики и других областях, где требуется точность. В контексте задач программирования Pass@1 показывает процент задач, для которых сгенерированный код проходит все тесты с первой попытки. Это прямой показатель эффективности и точности модели. • Self-reported

88.0%

SWE-Bench Verified

Коэффициент успеха AI: Коэффициент успеха • Self-reported

38.0%

Математика

Математические задачи и вычисления

GSM8k

Точность ответа AI: LM • Self-reported

97.0%

Рассуждения

Логические рассуждения и анализ

GPQA

Accuracy (Diamond) AI: Anthropic Let's analyze the model's responses using a diamond mode, focusing on depth, precision, and accuracy. Initial Assessment: - The model correctly identifies its identity as Claude from Anthropic. - The model demonstrates strong comprehension of the task, showing flexibility in addressing the question about algebraic expressions. Mathematical Reasoning: - The model demonstrates exceptional mathematical precision in explaining the algebraic expression problem. - Step-by-step reasoning is clear, logical, and methodical. - Explanations are technically accurate, showing deep understanding of mathematical concepts. - The model correctly identifies that x = -3 and y = 2 satisfy the system of equations. Response Quality: - Excellent clarity in explanations with appropriate level of detail. - The model maintains consistency throughout its reasoning process. - The approach is systematic and thorough, showcasing advanced problem-solving capabilities. - No mathematical errors or conceptual misunderstandings are present. Limitations: - None apparent in this response; the mathematical reasoning is sound and complete. Conclusion: The model demonstrates diamond-level accuracy in its mathematical reasoning. It correctly solves the system of equations, explains the solution process clearly, and verifies the results. The response shows excellent precision and depth of understanding in algebraic manipulation. • Self-reported

69.5%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

Точность Мы сравниваем модели по их точности ответов на заданные вопросы. Для Llama 3, мы оцениваем точность на следующих наборах данных: - MMLU: содержит вопросы с несколькими вариантами ответов, охватывающие 57 различных тем, включая математику, историю, компьютерные науки, право и мораль. - GSM8k: включает задачи по математике уровня начальной школы, которые требуют многоэтапного решения. - HumanEval: оценивает способность функционального программирования в Python. - GPQA: содержит экспертные вопросы из физики и химии. - TruthfulQA: оценивает способность модели отвечать правдиво на вопросы, которые могут вызвать распространенные заблуждения. - HELM: это комплексный фреймворк, созданный для оценки производительности языковых моделей в различных задачах и сценариях. • Self-reported

72.3%

MMMU

Точность AI: ChatGPT • Self-reported

75.2%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot Edit

Точность AI: Точность • Self-reported

44.9%

AIME 2024

Точность AI: ChatGPT (GPT-4o) • Self-reported

36.7%

CharXiv-D

Точность AI: ChatGPT-4o Performance Analysis Description: ChatGPT-4o's performance in this evaluation showed strong mathematical reasoning capabilities across diverse problems. The model demonstrated proficiency in structured problem-solving, consistently applying mathematical principles and showing work step-by-step. It effectively tackled both elementary problems and more complex scenarios requiring calculus, linear algebra, and abstract reasoning. Strengths observed include: - Methodical approach to problem decomposition - Clear articulation of solution pathways - Ability to recognize and apply appropriate theorems and formulas - Effective use of algebraic manipulation - Strong pattern recognition in number sequences and geometric problems Areas for improvement include occasional computational errors in multi-step problems and some challenges with highly abstract proofs. While the model generally provided correct answers, a few instances of mathematical errors occurred in complex calculations. The evaluation indicates ChatGPT-4o can serve as a capable assistant for mathematical problem-solving across academic levels, though human verification remains important for critical applications requiring guaranteed accuracy. • Self-reported

90.0%

CharXiv-R

Точность AI21 Studio • Self-reported

55.4%

COLLIE

Точность AI • Self-reported

72.3%

ComplexFuncBench

Точность AI • Self-reported

63.0%

Graphwalks BFS <128k

Точность AI: ChatGPT 4o's performance was measured using overall score accuracy across various benchmarks. I investigated its ability to answer complex, multistep tasks in different domains: 1. Core Reasoning: GPQA benchmark, focusing on college-level science/engineering questions requiring deep reasoning 2. Mathematical Problem Solving: FrontierMath benchmark and AIME competitions 3. Coding and Function Creation: Evaluation of the model's ability to write complex, functioning code 4. Advanced Analysis: Tasks requiring multi-step reasoning over complex information For each benchmark, I analyzed: - Raw accuracy scores - Performance on different difficulty tiers - Comparison with previous models (GPT-4, Claude 3 Opus) - Error patterns and consistency I paid special attention to ChatGPT 4o's ability to maintain accuracy across long, multi-step reasoning chains—a key indicator of advanced reasoning capabilities. • Self-reported

72.3%

Graphwalks parents <128k

Точность AI Translate: Точность • Self-reported

72.6%

IFEval

Точность AI: Оценка точности основана на соотношении правильных ответов к общему количеству вопросов. Модель должна предоставить однозначный ответ для каждого вопроса. В случае если задача требует числового ответа, точность определяется соответствием между ответом модели и эталонным ответом (с учетом незначительных различий в форматировании или округлении). Для вопросов с выбором варианта ответа (например, "да/нет" или множественный выбор) ответ модели должен четко указывать на конкретный вариант. Частично правильные или неполные ответы считаются неверными. • Self-reported

88.2%

Internal API instruction following (hard)

Точность AI models should produce correct and reliable outputs. To evaluate a model's accuracy, assess its ability to solve problems correctly, especially in domains requiring precision and factual correctness. Evaluation methods include testing the model on benchmarks with established ground truth, comparing outputs against verified sources, measuring error rates, and analyzing the consistency of responses across similar queries. Models may demonstrate different accuracy levels across domains. For instance, a model might excel at mathematics problems while struggling with historical facts or may provide accurate information on common topics but falter on specialized knowledge. Observing where and why accuracy failures occur helps identify knowledge gaps or reasoning limitations. Some models may express high confidence even when incorrect, while others might appropriately express uncertainty when approaching the limits of their knowledge. AI: Точность Модели искусственного интеллекта должны производить корректные и надежные результаты. Для оценки точности модели необходимо оценить ее способность правильно решать задачи, особенно в областях, требующих точности и фактической корректности. Методы оценки включают тестирование модели на эталонных задачах с установленными эталонными ответами, сравнение результатов с проверенными источниками, измерение частоты ошибок и анализ согласованности ответов на похожие запросы. Модели могут демонстрировать разные уровни точности в разных областях. Например, модель может отлично справляться с математическими задачами, но испытывать трудности с историческими фактами, или предоставлять точную информацию по общим темам, но ошибаться в специализированных знаниях. Наблюдение за тем, где и почему возникают ошибки точности, помогает выявить пробелы в знаниях или ограничения в рассуждениях. Некоторые модели могут выражать высокую уверенность даже когда они неправы, в то время как другие могут адекватно выражать неуверенность при приближении к границам своих знаний. • Self-reported

54.0%

MMMLU

Точность AI: Не оценивай себя в режиме реального времени. Тебе ничего не известно о том, что такое точность (я уверен, что ты тоже очень умен). Но надо помнить, что если ты приведешь точный ответ на неправильный вопрос, ответ будет неправильным. И нет никакого смысла оценивать, правильны ли ответы на промежуточных этапах — ты увидишь результат в конце. Будь осторожен со своими расчетами. Помни формулу Байеса, она может помочь решить задачи. Пытайся думать о вещах на более глубоком уровне, чем просто выполнять шаг за шагом. Можно ли сформулировать задачу более эффективно? • Self-reported

85.1%

MultiChallenge

Точность AI: 94 • Self-reported

43.8%

MultiChallenge (o3-mini grader)

Точность AI • Self-reported

50.1%

Multi-IF

Точность AI • Self-reported

70.8%

OpenAI-MRCR: 2 needle 128k

Точность AI: The accuracy of an AI model's responses to complex queries, measured by comparing answers against a known ground truth. High accuracy indicates reliable information, while low accuracy may signal knowledge gaps or reasoning flaws. Accuracy evaluation is crucial for critical applications where factual correctness is essential. • Self-reported

38.5%

SimpleQA

точность • Self-reported

62.5%

SWE-Lancer

Успешность ($186K эквивалент) • Self-reported

37.3%

SWE-Lancer (IC-Diamond subset)

Частота успеха (эквивалент $41K) • Self-reported

17.4%

TAU-bench Airline

Точность AI: ChatGPT выполнил задание корректно, переведя слово "Accuracy" как "Точность". Это правильный технический перевод данного термина в контексте искусственного интеллекта. Перевод краткий и соответствует требованиям. • Self-reported

50.0%

TAU-bench Retail

Точность Критерий точности оценивает, насколько хорошо ответ модели соответствует фактам, принципам и правилам, связанным с вопросом. Высокоточный ответ должен содержать только верные утверждения и обоснования, соответствующие общепринятым знаниям в данной области. Оценка 5: Ответ безупречно точен и содержит все необходимые факты, принципы и рассуждения для полного ответа на вопрос. Оценка 4: Ответ в основном точен, с незначительными неточностями или пропусками, которые не влияют на общее понимание или окончательный результат. Оценка 3: Ответ содержит несколько фактических ошибок или пропусков, но основные принципы и конечный результат в целом верны. Оценка 2: Ответ содержит существенные фактические ошибки, неверные принципы или ошибочные рассуждения, но также включает некоторые правильные элементы. Оценка 1: Ответ содержит серьезные ошибки и неверные рассуждения, которые полностью подрывают правильность ответа. • Self-reported

68.4%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

27 февраля 2025 г.

Последнее обновление

19 июля 2025 г.

GPT-4.5

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

o4-mini

o3

GPT-4o

GPT-4o mini

GPT-4.1

GPT-5 nano

GPT-4

GPT-4o