Основные характеристики
Параметры
-
Контекст
400.0K
Дата выпуска
7 августа 2025 г.
Средний балл
70.1%
Временная шкала
Ключевые даты в истории модели
Анонс
7 августа 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
30 сентября 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$1.25
Выход (за 1М токенов)
$10.00
Макс. входящих токенов
400.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
Стандартный бенчмарк по различным академическим дисциплинам с комплексной оценкой знаний. • Self-reported
Программирование
Тесты на навыки программирования
SWE-Bench Verified
Режим размышления включен (до 128K токенов) с улучшенными возможностями рассуждения и итеративным подходом к решению проблем. • Self-reported
HumanEval
Бенчмарк генерации кода с заданиями по завершению функций на Python. • Self-reported
Математика
Математические задачи и вычисления
MATH
Включен режим размышления с пошаговым решением и проверкой математических задач. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
GPT-5 - Diamond-мышление без инструментов
Эта методика использует специальный режим размышления, который сильно отличается от более стандартного "медленного и тщательного" мышления. Основное различие заключается в том, что мы используем так называемый "diamond-thinking" (алмазное мышление) - метод, разработанный Себастьяном Бубеком, где модель:
1. Начинает с ОЧЕНЬ широкого взгляда на проблему, продумывая множество различных подходов и возможных связей
2. Постепенно сужает фокус до наиболее перспективных идей
3. Проверяет эти идеи на прочность, тщательно оценивая их
4. Наконец, расширяет лучшую идею в полное, детальное решение
Этот подход особенно эффективен для математических и физических задач, требующих творческого мышления для поиска нестандартного решения. Во многих случаях модель достигает точного, правильного решения, которое не было бы найдено при использовании более линейных методов мышления.
Поскольку мы не используем инструменты, результаты можно напрямую сравнивать с версиями, где применяются инструменты, чтобы лучше понять их влияние на производительность модели. • Self-reported
Мультимодальность
Работа с изображениями и визуальными данными
MMMU
GPT-5 с режимом размышления - Решение визуальных задач университетского уровня с мультимодальным рассуждением. • Self-reported
Другие тесты
Специализированные бенчмарки
Aider-Polyglot
Включен режим размышления (до 128 тысяч токенов) с пошаговыми рассуждениями и пониманием кода на разных языках программирования. • Self-reported
SWE-Lancer (IC-Diamond subset)
GPT-5 - IC SWE Diamond Freelance Coding Tasks (оценка на основе заработка). • Self-reported
AIME 2025
GPT-5 standard с включенным режимом размышления (без инструментов) - соревновательная математика. • Self-reported
HealthBench Hard
Режим размышления активирован для обнаружения медицинских галлюцинаций. Измерены неточности в сложных диалогах на темы здравоохранения. • Self-reported
FrontierMath
GPT-5 standard с включенным режимом размышления (только с инструментом python) - математика экспертного уровня FrontierMath уровней 1-3. • Self-reported
HMMT 2025
GPT-5 standard с включенным режимом размышления (без инструментов) - Harvard-MIT Mathematics Tournament. • Self-reported
Humanity's Last Exam
GPT-5 standard с режимом размышления (без инструментов) - Полный набор вопросов экспертного уровня по различным предметам. • Self-reported
Scale MultiChallenge
GPT-5 с включенным режимом размышления - Бенчмарк выполнения многоэтапных инструкций. • Self-reported
BrowseComp
GPT-5 с включенным режимом размышления - Бенчмарк агентного поиска и просмотра веб-страниц. • Self-reported
COLLIE
GPT-5 с включенным режимом размышления - Следование инструкциям в свободной форме письма. • Self-reported
MultiChallenge (o3-mini grader)
GPT-5 с оценщиком o3-mini - Бенчмарк многоходового выполнения инструкций с улучшенной точностью оценки. • Self-reported
Internal API instruction following (hard)
GPT-5 - Оценка выполнения инструкций через внутренний API (высокая сложность). • Self-reported
Tau2 airline
GPT-5 - Бенчмарк вызова функций (авиационная сфера). • Self-reported
Tau2 retail
GPT-5 с режимом размышления - Бенчмарк вызова функций (розничная сфера). • Self-reported
Tau2 telecom
GPT-5 с режимом размышления - Бенчмарк вызова функций (телекоммуникационная область). • Self-reported
MMMU-Pro
GPT-5 с режимом размышления - решение визуальных задач университетского уровня с применением продвинутого мультимодального рассуждения. • Self-reported
VideoMMMU
GPT-5 с режимом размышления - Видео-основанное мультимодальное рассуждение (максимум 256 кадров). • Self-reported
CharXiv-R
GPT-5 с режимом размышления - Рассуждение и интерпретация научных графиков. • Self-reported
ERQA
GPT-5 с режимом размышления - Мультимодальное пространственное мышление. • Self-reported
OpenAI-MRCR: 2 needle 128k
OpenAI-MRCR - двухигольный поиск при 128 тысячах токенов. • Self-reported
OpenAI-MRCR: 2 needle 256k
OpenAI-MRCR 2-needle retrieval при 256 тысячах токенов. • Self-reported
Graphwalks BFS <128k
Поиск в ширину графовых путей (Graphwalks BFS) (<128k) для рассуждений с большим контекстом. • Self-reported
Graphwalks parents <128k
Графические проходы, основанные на родительских связях (<128k), для рассуждений с длинным контекстом. • Self-reported
BrowseComp Long Context 128k
BrowseComp вариант с длинным контекстом 128k. • Self-reported
BrowseComp Long Context 256k
BrowseComp вариант с длинным контекстом 256k. • Self-reported
VideoMME w sub.
VideoMME (long) с субтитрами — категория. • Self-reported
LongFact-Concepts
Включен режим размышления для обнаружения галлюцинаций. Измерения проведены на открытых промптах для концептуальных фактологических запросов. • Self-reported
LongFact-Objects
Режим размышления включен для обнаружения галлюцинаций. Измерено на открытых промптах для фактологических запросов, основанных на объектах. • Self-reported
FactScore
Режим размышления активирован для оценки фактической точности. Измерен уровень галлюцинаций на открытых промптах. • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
7 августа 2025 г.
Последнее обновление
24 июля 2025 г.
Похожие модели
Все моделиGPT-5 mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.25/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
GPT-4.1 nano
OpenAI
MM
Лучший скор:0.8 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.10/1M токенов
o3-pro
OpenAI
MM
Релиз:июнь 2025 г.
Цена:$20.00/1M токенов
o4-mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$1.10/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:авг. 2024 г.
Цена:$2.50/1M токенов
GPT-4.1 mini
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.40/1M токенов
GPT-4.1
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.