OpenAI logo

GPT-5

Мультимодальная
OpenAI

GPT-5 — это наша флагманская модель для программирования, рассуждений и агентных задач в различных областях. Лучшая модель для программирования и агентных задач с повышенными способностями к рассуждению и средней скоростью работы.

Основные характеристики

Параметры
-
Контекст
400.0K
Дата выпуска
7 августа 2025 г.
Средний балл
70.1%

Временная шкала

Ключевые даты в истории модели
Анонс
7 августа 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
30 сентября 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$1.25
Выход (за 1М токенов)
$10.00
Макс. входящих токенов
400.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
Стандартный бенчмарк по различным академическим дисциплинам с комплексной оценкой знаний.Self-reported
92.5%

Программирование

Тесты на навыки программирования
SWE-Bench Verified
Режим размышления включен (до 128K токенов) с улучшенными возможностями рассуждения и итеративным подходом к решению проблем.Self-reported
74.9%
HumanEval
Бенчмарк генерации кода с заданиями по завершению функций на Python.Self-reported
93.4%

Математика

Математические задачи и вычисления
MATH
Включен режим размышления с пошаговым решением и проверкой математических задач.Self-reported
84.7%

Рассуждения

Логические рассуждения и анализ
GPQA
GPT-5 - Diamond-мышление без инструментов Эта методика использует специальный режим размышления, который сильно отличается от более стандартного "медленного и тщательного" мышления. Основное различие заключается в том, что мы используем так называемый "diamond-thinking" (алмазное мышление) - метод, разработанный Себастьяном Бубеком, где модель: 1. Начинает с ОЧЕНЬ широкого взгляда на проблему, продумывая множество различных подходов и возможных связей 2. Постепенно сужает фокус до наиболее перспективных идей 3. Проверяет эти идеи на прочность, тщательно оценивая их 4. Наконец, расширяет лучшую идею в полное, детальное решение Этот подход особенно эффективен для математических и физических задач, требующих творческого мышления для поиска нестандартного решения. Во многих случаях модель достигает точного, правильного решения, которое не было бы найдено при использовании более линейных методов мышления. Поскольку мы не используем инструменты, результаты можно напрямую сравнивать с версиями, где применяются инструменты, чтобы лучше понять их влияние на производительность модели.Self-reported
85.7%

Мультимодальность

Работа с изображениями и визуальными данными
MMMU
GPT-5 с режимом размышления - Решение визуальных задач университетского уровня с мультимодальным рассуждением.Self-reported
84.2%

Другие тесты

Специализированные бенчмарки
Aider-Polyglot
Включен режим размышления (до 128 тысяч токенов) с пошаговыми рассуждениями и пониманием кода на разных языках программирования.Self-reported
88.0%
SWE-Lancer (IC-Diamond subset)
GPT-5 - IC SWE Diamond Freelance Coding Tasks (оценка на основе заработка).Self-reported
100.0%
AIME 2025
GPT-5 standard с включенным режимом размышления (без инструментов) - соревновательная математика.Self-reported
94.6%
HealthBench Hard
Режим размышления активирован для обнаружения медицинских галлюцинаций. Измерены неточности в сложных диалогах на темы здравоохранения.Self-reported
1.6%
FrontierMath
GPT-5 standard с включенным режимом размышления (только с инструментом python) - математика экспертного уровня FrontierMath уровней 1-3.Self-reported
26.3%
HMMT 2025
GPT-5 standard с включенным режимом размышления (без инструментов) - Harvard-MIT Mathematics Tournament.Self-reported
93.3%
Humanity's Last Exam
GPT-5 standard с режимом размышления (без инструментов) - Полный набор вопросов экспертного уровня по различным предметам.Self-reported
24.8%
Scale MultiChallenge
GPT-5 с включенным режимом размышления - Бенчмарк выполнения многоэтапных инструкций.Self-reported
69.6%
BrowseComp
GPT-5 с включенным режимом размышления - Бенчмарк агентного поиска и просмотра веб-страниц.Self-reported
54.9%
COLLIE
GPT-5 с включенным режимом размышления - Следование инструкциям в свободной форме письма.Self-reported
99.0%
MultiChallenge (o3-mini grader)
GPT-5 с оценщиком o3-mini - Бенчмарк многоходового выполнения инструкций с улучшенной точностью оценки.Self-reported
69.6%
Internal API instruction following (hard)
GPT-5 - Оценка выполнения инструкций через внутренний API (высокая сложность).Self-reported
64.0%
Tau2 airline
GPT-5 - Бенчмарк вызова функций (авиационная сфера).Self-reported
62.6%
Tau2 retail
GPT-5 с режимом размышления - Бенчмарк вызова функций (розничная сфера).Self-reported
81.1%
Tau2 telecom
GPT-5 с режимом размышления - Бенчмарк вызова функций (телекоммуникационная область).Self-reported
96.7%
MMMU-Pro
GPT-5 с режимом размышления - решение визуальных задач университетского уровня с применением продвинутого мультимодального рассуждения.Self-reported
78.4%
VideoMMMU
GPT-5 с режимом размышления - Видео-основанное мультимодальное рассуждение (максимум 256 кадров).Self-reported
84.6%
CharXiv-R
GPT-5 с режимом размышления - Рассуждение и интерпретация научных графиков.Self-reported
81.1%
ERQA
GPT-5 с режимом размышления - Мультимодальное пространственное мышление.Self-reported
65.7%
OpenAI-MRCR: 2 needle 128k
OpenAI-MRCR - двухигольный поиск при 128 тысячах токенов.Self-reported
95.2%
OpenAI-MRCR: 2 needle 256k
OpenAI-MRCR 2-needle retrieval при 256 тысячах токенов.Self-reported
86.8%
Graphwalks BFS <128k
Поиск в ширину графовых путей (Graphwalks BFS) (<128k) для рассуждений с большим контекстом.Self-reported
78.3%
Graphwalks parents <128k
Графические проходы, основанные на родительских связях (<128k), для рассуждений с длинным контекстом.Self-reported
73.3%
BrowseComp Long Context 128k
BrowseComp вариант с длинным контекстом 128k.Self-reported
90.0%
BrowseComp Long Context 256k
BrowseComp вариант с длинным контекстом 256k.Self-reported
88.8%
VideoMME w sub.
VideoMME (long) с субтитрами — категория.Self-reported
86.7%
LongFact-Concepts
Включен режим размышления для обнаружения галлюцинаций. Измерения проведены на открытых промптах для концептуальных фактологических запросов.Self-reported
0.7%
LongFact-Objects
Режим размышления включен для обнаружения галлюцинаций. Измерено на открытых промптах для фактологических запросов, основанных на объектах.Self-reported
0.8%
FactScore
Режим размышления активирован для оценки фактической точности. Измерен уровень галлюцинаций на открытых промптах.Self-reported
1.0%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
7 августа 2025 г.
Последнее обновление
24 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.