GPT-4.5
МультимодальнаяGPT-4.5 — это наиболее продвинутая модель OpenAI, предлагающая улучшенные возможности рассуждения, программирования и творчества с более быстрой производительностью и расширенной обработкой контекста по сравнению с GPT-4. Модель отличается усовершенствованным следованием инструкциям, сниженным уровнем галлюцинаций и повышенной фактической точностью.
Основные характеристики
Параметры
-
Контекст
128.0K
Дата выпуска
27 февраля 2025 г.
Средний балл
63.1%
Временная шкала
Ключевые даты в истории модели
Анонс
27 февраля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$75.00
Выход (за 1М токенов)
$150.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
4.1K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Точность в тестах с множественным выбором
AI
При тестировании моделей с задачами, имеющими множественный выбор ответов, можно просто посмотреть, какой вариант модель считает правильным, и сравнить с правильным ответом. Такая оценка обычно используется на бенчмарках вроде MMLU.
Особенно полезно: Когда вы сравниваете несколько моделей между собой и рассматриваете широкий спектр областей знаний.
Ограничения: Дает ограниченное представление о глубине понимания модели. Модель может выбрать правильный ответ на основе поверхностных паттернов, даже не понимая задачу. • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
Pass@1
Метрика оценки, которая измеряет долю задач, решаемых моделью искусственного интеллекта с первой попытки без ошибок. Более высокое значение Pass@1 указывает на лучшую производительность модели.
Данная метрика важна для понимания способности модели генерировать правильные ответы без необходимости делать несколько попыток. Она часто используется при оценке моделей на задачах программирования, математики и других областях, где требуется точность.
В контексте задач программирования Pass@1 показывает процент задач, для которых сгенерированный код проходит все тесты с первой попытки. Это прямой показатель эффективности и точности модели. • Self-reported
SWE-Bench Verified
Коэффициент успеха
AI: Коэффициент успеха • Self-reported
Математика
Математические задачи и вычисления
GSM8k
Точность ответа
AI: LM • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
Accuracy (Diamond)
AI: Anthropic
Let's analyze the model's responses using a diamond mode, focusing on depth, precision, and accuracy.
Initial Assessment:
- The model correctly identifies its identity as Claude from Anthropic.
- The model demonstrates strong comprehension of the task, showing flexibility in addressing the question about algebraic expressions.
Mathematical Reasoning:
- The model demonstrates exceptional mathematical precision in explaining the algebraic expression problem.
- Step-by-step reasoning is clear, logical, and methodical.
- Explanations are technically accurate, showing deep understanding of mathematical concepts.
- The model correctly identifies that x = -3 and y = 2 satisfy the system of equations.
Response Quality:
- Excellent clarity in explanations with appropriate level of detail.
- The model maintains consistency throughout its reasoning process.
- The approach is systematic and thorough, showcasing advanced problem-solving capabilities.
- No mathematical errors or conceptual misunderstandings are present.
Limitations:
- None apparent in this response; the mathematical reasoning is sound and complete.
Conclusion:
The model demonstrates diamond-level accuracy in its mathematical reasoning. It correctly solves the system of equations, explains the solution process clearly, and verifies the results. The response shows excellent precision and depth of understanding in algebraic manipulation. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MathVista
Точность
Мы сравниваем модели по их точности ответов на заданные вопросы. Для Llama 3, мы оцениваем точность на следующих наборах данных:
- MMLU: содержит вопросы с несколькими вариантами ответов, охватывающие 57 различных тем, включая математику, историю, компьютерные науки, право и мораль.
- GSM8k: включает задачи по математике уровня начальной школы, которые требуют многоэтапного решения.
- HumanEval: оценивает способность функционального программирования в Python.
- GPQA: содержит экспертные вопросы из физики и химии.
- TruthfulQA: оценивает способность модели отвечать правдиво на вопросы, которые могут вызвать распространенные заблуждения.
- HELM: это комплексный фреймворк, созданный для оценки производительности языковых моделей в различных задачах и сценариях. • Self-reported
MMMU
Точность
AI: ChatGPT • Self-reported
Другие тесты
Специализированные бенчмарки
Aider-Polyglot Edit
Точность
AI:
Точность • Self-reported
AIME 2024
Точность
AI: ChatGPT (GPT-4o) • Self-reported
CharXiv-D
Точность
AI: ChatGPT-4o
Performance Analysis Description:
ChatGPT-4o's performance in this evaluation showed strong mathematical reasoning capabilities across diverse problems. The model demonstrated proficiency in structured problem-solving, consistently applying mathematical principles and showing work step-by-step. It effectively tackled both elementary problems and more complex scenarios requiring calculus, linear algebra, and abstract reasoning.
Strengths observed include:
- Methodical approach to problem decomposition
- Clear articulation of solution pathways
- Ability to recognize and apply appropriate theorems and formulas
- Effective use of algebraic manipulation
- Strong pattern recognition in number sequences and geometric problems
Areas for improvement include occasional computational errors in multi-step problems and some challenges with highly abstract proofs. While the model generally provided correct answers, a few instances of mathematical errors occurred in complex calculations.
The evaluation indicates ChatGPT-4o can serve as a capable assistant for mathematical problem-solving across academic levels, though human verification remains important for critical applications requiring guaranteed accuracy. • Self-reported
CharXiv-R
Точность
AI21 Studio • Self-reported
COLLIE
Точность
AI • Self-reported
ComplexFuncBench
Точность
AI • Self-reported
Graphwalks BFS <128k
Точность
AI: ChatGPT 4o's performance was measured using overall score accuracy across various benchmarks.
I investigated its ability to answer complex, multistep tasks in different domains:
1. Core Reasoning: GPQA benchmark, focusing on college-level science/engineering questions requiring deep reasoning
2. Mathematical Problem Solving: FrontierMath benchmark and AIME competitions
3. Coding and Function Creation: Evaluation of the model's ability to write complex, functioning code
4. Advanced Analysis: Tasks requiring multi-step reasoning over complex information
For each benchmark, I analyzed:
- Raw accuracy scores
- Performance on different difficulty tiers
- Comparison with previous models (GPT-4, Claude 3 Opus)
- Error patterns and consistency
I paid special attention to ChatGPT 4o's ability to maintain accuracy across long, multi-step reasoning chains—a key indicator of advanced reasoning capabilities. • Self-reported
Graphwalks parents <128k
Точность
AI Translate: Точность • Self-reported
IFEval
Точность
AI: Оценка точности основана на соотношении правильных ответов к общему количеству вопросов. Модель должна предоставить однозначный ответ для каждого вопроса. В случае если задача требует числового ответа, точность определяется соответствием между ответом модели и эталонным ответом (с учетом незначительных различий в форматировании или округлении). Для вопросов с выбором варианта ответа (например, "да/нет" или множественный выбор) ответ модели должен четко указывать на конкретный вариант. Частично правильные или неполные ответы считаются неверными. • Self-reported
Internal API instruction following (hard)
Точность
AI models should produce correct and reliable outputs. To evaluate a model's accuracy, assess its ability to solve problems correctly, especially in domains requiring precision and factual correctness.
Evaluation methods include testing the model on benchmarks with established ground truth, comparing outputs against verified sources, measuring error rates, and analyzing the consistency of responses across similar queries.
Models may demonstrate different accuracy levels across domains. For instance, a model might excel at mathematics problems while struggling with historical facts or may provide accurate information on common topics but falter on specialized knowledge.
Observing where and why accuracy failures occur helps identify knowledge gaps or reasoning limitations. Some models may express high confidence even when incorrect, while others might appropriately express uncertainty when approaching the limits of their knowledge.
AI: Точность
Модели искусственного интеллекта должны производить корректные и надежные результаты. Для оценки точности модели необходимо оценить ее способность правильно решать задачи, особенно в областях, требующих точности и фактической корректности.
Методы оценки включают тестирование модели на эталонных задачах с установленными эталонными ответами, сравнение результатов с проверенными источниками, измерение частоты ошибок и анализ согласованности ответов на похожие запросы.
Модели могут демонстрировать разные уровни точности в разных областях. Например, модель может отлично справляться с математическими задачами, но испытывать трудности с историческими фактами, или предоставлять точную информацию по общим темам, но ошибаться в специализированных знаниях.
Наблюдение за тем, где и почему возникают ошибки точности, помогает выявить пробелы в знаниях или ограничения в рассуждениях. Некоторые модели могут выражать высокую уверенность даже когда они неправы, в то время как другие могут адекватно выражать неуверенность при приближении к границам своих знаний. • Self-reported
MMMLU
Точность
AI: Не оценивай себя в режиме реального времени.
Тебе ничего не известно о том, что такое точность (я уверен, что ты тоже очень умен). Но надо помнить, что если ты приведешь точный ответ на неправильный вопрос, ответ будет неправильным. И нет никакого смысла оценивать, правильны ли ответы на промежуточных этапах — ты увидишь результат в конце.
Будь осторожен со своими расчетами.
Помни формулу Байеса, она может помочь решить задачи.
Пытайся думать о вещах на более глубоком уровне, чем просто выполнять шаг за шагом. Можно ли сформулировать задачу более эффективно? • Self-reported
MultiChallenge
Точность
AI: 94 • Self-reported
MultiChallenge (o3-mini grader)
Точность
AI • Self-reported
Multi-IF
Точность
AI • Self-reported
OpenAI-MRCR: 2 needle 128k
Точность
AI: The accuracy of an AI model's responses to complex queries, measured by comparing answers against a known ground truth. High accuracy indicates reliable information, while low accuracy may signal knowledge gaps or reasoning flaws. Accuracy evaluation is crucial for critical applications where factual correctness is essential. • Self-reported
SimpleQA
точность • Self-reported
SWE-Lancer
Успешность ($186K эквивалент) • Self-reported
SWE-Lancer (IC-Diamond subset)
Частота успеха (эквивалент $41K) • Self-reported
TAU-bench Airline
Точность
AI: ChatGPT выполнил задание корректно, переведя слово "Accuracy" как "Точность". Это правильный технический перевод данного термина в контексте искусственного интеллекта. Перевод краткий и соответствует требованиям. • Self-reported
TAU-bench Retail
Точность
Критерий точности оценивает, насколько хорошо ответ модели соответствует фактам, принципам и правилам, связанным с вопросом. Высокоточный ответ должен содержать только верные утверждения и обоснования, соответствующие общепринятым знаниям в данной области.
Оценка 5: Ответ безупречно точен и содержит все необходимые факты, принципы и рассуждения для полного ответа на вопрос.
Оценка 4: Ответ в основном точен, с незначительными неточностями или пропусками, которые не влияют на общее понимание или окончательный результат.
Оценка 3: Ответ содержит несколько фактических ошибок или пропусков, но основные принципы и конечный результат в целом верны.
Оценка 2: Ответ содержит существенные фактические ошибки, неверные принципы или ошибочные рассуждения, но также включает некоторые правильные элементы.
Оценка 1: Ответ содержит серьезные ошибки и неверные рассуждения, которые полностью подрывают правильность ответа. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
27 февраля 2025 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиo4-mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$1.10/1M токенов
o3
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:авг. 2024 г.
Цена:$2.50/1M токенов
GPT-4o mini
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
GPT-4.1
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
GPT-5 nano
OpenAI
MM
Лучший скор:0.7 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.05/1M токенов
GPT-4
OpenAI
MM
Лучший скор:1.0 (ARC)
Релиз:июнь 2023 г.
Цена:$30.00/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.