GPT-5

Name: GPT-5
Rating: 0.7 (35 reviews)
Author: OpenAI

Мультимодальная

OpenAI

GPT-5 — это наша флагманская модель для программирования, рассуждений и агентных задач в различных областях. Лучшая модель для программирования и агентных задач с повышенными способностями к рассуждению и средней скоростью работы.

Основные характеристики

Параметры

Контекст

400.0K

Дата выпуска

7 августа 2025 г.

Средний балл

70.1%

API документация

Временная шкала

Ключевые даты в истории модели

Анонс

7 августа 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

30 сентября 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$1.25

Выход (за 1М токенов)

$10.00

Макс. входящих токенов

400.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Стандартный бенчмарк по различным академическим дисциплинам с комплексной оценкой знаний. • Self-reported

92.5%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Режим размышления включен (до 128K токенов) с улучшенными возможностями рассуждения и итеративным подходом к решению проблем. • Self-reported

74.9%

HumanEval

Бенчмарк генерации кода с заданиями по завершению функций на Python. • Self-reported

93.4%

Математика

Математические задачи и вычисления

MATH

Включен режим размышления с пошаговым решением и проверкой математических задач. • Self-reported

84.7%

Рассуждения

Логические рассуждения и анализ

GPQA

GPT-5 - Diamond-мышление без инструментов Эта методика использует специальный режим размышления, который сильно отличается от более стандартного "медленного и тщательного" мышления. Основное различие заключается в том, что мы используем так называемый "diamond-thinking" (алмазное мышление) - метод, разработанный Себастьяном Бубеком, где модель: 1. Начинает с ОЧЕНЬ широкого взгляда на проблему, продумывая множество различных подходов и возможных связей 2. Постепенно сужает фокус до наиболее перспективных идей 3. Проверяет эти идеи на прочность, тщательно оценивая их 4. Наконец, расширяет лучшую идею в полное, детальное решение Этот подход особенно эффективен для математических и физических задач, требующих творческого мышления для поиска нестандартного решения. Во многих случаях модель достигает точного, правильного решения, которое не было бы найдено при использовании более линейных методов мышления. Поскольку мы не используем инструменты, результаты можно напрямую сравнивать с версиями, где применяются инструменты, чтобы лучше понять их влияние на производительность модели. • Self-reported

85.7%

Мультимодальность

Работа с изображениями и визуальными данными

MMMU

GPT-5 с режимом размышления - Решение визуальных задач университетского уровня с мультимодальным рассуждением. • Self-reported

84.2%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Включен режим размышления (до 128 тысяч токенов) с пошаговыми рассуждениями и пониманием кода на разных языках программирования. • Self-reported

88.0%

SWE-Lancer (IC-Diamond subset)

GPT-5 - IC SWE Diamond Freelance Coding Tasks (оценка на основе заработка). • Self-reported

100.0%

AIME 2025

GPT-5 standard с включенным режимом размышления (без инструментов) - соревновательная математика. • Self-reported

94.6%

HealthBench Hard

Режим размышления активирован для обнаружения медицинских галлюцинаций. Измерены неточности в сложных диалогах на темы здравоохранения. • Self-reported

1.6%

FrontierMath

GPT-5 standard с включенным режимом размышления (только с инструментом python) - математика экспертного уровня FrontierMath уровней 1-3. • Self-reported

26.3%

HMMT 2025

GPT-5 standard с включенным режимом размышления (без инструментов) - Harvard-MIT Mathematics Tournament. • Self-reported

93.3%

Humanity's Last Exam

GPT-5 standard с режимом размышления (без инструментов) - Полный набор вопросов экспертного уровня по различным предметам. • Self-reported

24.8%

Scale MultiChallenge

GPT-5 с включенным режимом размышления - Бенчмарк выполнения многоэтапных инструкций. • Self-reported

69.6%

BrowseComp

GPT-5 с включенным режимом размышления - Бенчмарк агентного поиска и просмотра веб-страниц. • Self-reported

54.9%

COLLIE

GPT-5 с включенным режимом размышления - Следование инструкциям в свободной форме письма. • Self-reported

99.0%

MultiChallenge (o3-mini grader)

GPT-5 с оценщиком o3-mini - Бенчмарк многоходового выполнения инструкций с улучшенной точностью оценки. • Self-reported

69.6%

Internal API instruction following (hard)

GPT-5 - Оценка выполнения инструкций через внутренний API (высокая сложность). • Self-reported

64.0%

Tau2 airline

GPT-5 - Бенчмарк вызова функций (авиационная сфера). • Self-reported

62.6%

Tau2 retail

GPT-5 с режимом размышления - Бенчмарк вызова функций (розничная сфера). • Self-reported

81.1%

Tau2 telecom

GPT-5 с режимом размышления - Бенчмарк вызова функций (телекоммуникационная область). • Self-reported

96.7%

MMMU-Pro

GPT-5 с режимом размышления - решение визуальных задач университетского уровня с применением продвинутого мультимодального рассуждения. • Self-reported

78.4%

VideoMMMU

GPT-5 с режимом размышления - Видео-основанное мультимодальное рассуждение (максимум 256 кадров). • Self-reported

84.6%

CharXiv-R

GPT-5 с режимом размышления - Рассуждение и интерпретация научных графиков. • Self-reported

81.1%

ERQA

GPT-5 с режимом размышления - Мультимодальное пространственное мышление. • Self-reported

65.7%

OpenAI-MRCR: 2 needle 128k

OpenAI-MRCR - двухигольный поиск при 128 тысячах токенов. • Self-reported

95.2%

OpenAI-MRCR: 2 needle 256k

OpenAI-MRCR 2-needle retrieval при 256 тысячах токенов. • Self-reported

86.8%

Graphwalks BFS <128k

Поиск в ширину графовых путей (Graphwalks BFS) (<128k) для рассуждений с большим контекстом. • Self-reported

78.3%

Graphwalks parents <128k

Графические проходы, основанные на родительских связях (<128k), для рассуждений с длинным контекстом. • Self-reported

73.3%

BrowseComp Long Context 128k

BrowseComp вариант с длинным контекстом 128k. • Self-reported

90.0%

BrowseComp Long Context 256k

BrowseComp вариант с длинным контекстом 256k. • Self-reported

88.8%

VideoMME w sub.

VideoMME (long) с субтитрами — категория. • Self-reported

86.7%

LongFact-Concepts

Включен режим размышления для обнаружения галлюцинаций. Измерения проведены на открытых промптах для концептуальных фактологических запросов. • Self-reported

0.7%

LongFact-Objects

Режим размышления включен для обнаружения галлюцинаций. Измерено на открытых промптах для фактологических запросов, основанных на объектах. • Self-reported

0.8%

FactScore

Режим размышления активирован для оценки фактической точности. Измерен уровень галлюцинаций на открытых промптах. • Self-reported

1.0%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

7 августа 2025 г.

Последнее обновление

24 июля 2025 г.

Статьи о GPT-5

OpenAI Codex Desktop: мульти-агентный кодинг приходит на Mac

OpenAI выпустила Codex App для macOS — десктопный центр управления AI-агентами для разработки. Параллельные потоки, Skills, Automations и конкуренция с Claude Code.

3 февраля 2026 г.

8 мин

Qwen3-Max-Thinking: Alibaba выпустила конкурента o3 и Claude Thinking

Alibaba представила Qwen3-Max-Thinking — reasoning-модель с адаптивным использованием инструментов и multi-round thinking. На ряде бенчмарков опережает GPT-5.2 и Gemini 3 Pro.

31 января 2026 г.

6 мин

Что стоит за Kimi K2.5: команда Moonshot AI о будущем модели

Основатели Moonshot AI раскрыли планы на K3, секреты архитектуры KDA и причины уникального стиля K2.5 в сессии вопросов-ответов на Reddit.

30 января 2026 г.

7 мин

Kimi K2.5: китайская open-source модель обошла GPT-5.2 и Claude Opus в кодинге

Moonshot AI выпустила мультимодальную модель с 1T параметрами и 32B активными. Kimi K2.5 лидирует на SWE-Bench Multilingual и VideoMMMU.

28 января 2026 г.

5 мин

90% кода Claude Code написано самим Claude Code

Anthropic раскрыла статистику: их AI-агент пишет собственный код. Разработчики в восторге, аналитики сомневаются.

26 января 2026 г.

7 мин

ChatGPT и Claude начали цитировать Grokipedia — AI-энциклопедию Маска

Тесты The Guardian показали, что GPT-5.2 использует Grokipedia как источник информации. Это вызывает опасения о распространении дезинформации через языковые модели.

26 января 2026 г.

6 мин

K-образное освоение ИИ: почему разрыв между лидерами и отстающими только растёт

Отчёт Microsoft показывает, что глобальное внедрение ИИ ускоряется, но разрыв между развитыми и развивающимися странами увеличивается вдвое быстрее.

26 января 2026 г.

7 мин

GPT-5.2 Pro побил рекорд на сложнейших математических задачах

Модель OpenAI набрала 31% на FrontierMath Tier 4 — это почти вдвое больше предыдущего рекорда Gemini 3 Pro (19%).

25 января 2026 г.

5 мин

Почему GPT-5 не может решить задачу для трёхлетки

Новый бенчмарк BabyVision показал, что лучшие мультимодальные модели проваливаются на визуальных задачах, которые легко решают дети.

21 января 2026 г.

7 мин

GPT-5.2 решил 6-летнюю математическую задачу

Система Archivara на базе GPT-5.2 Pro и Claude Opus 4.5 нашла новый алгоритм умножения матриц, улучшив результат 2019 года на 14%.

18 января 2026 г.

7 мин

Сотни AI-агентов написали браузер за неделю. Cursor показал будущее разработки

CEO Cursor рассказал, как GPT-5.2 агенты автономно создали работающий браузер FastRender с 3 миллионами строк кода на Rust.

17 января 2026 г.

7 мин

Orchestrator-8B: как маленькая модель NVIDIA обыгрывает GPT-5

NVIDIA выпустила Orchestrator-8B — модель-дирижёр, которая координирует другие LLM и инструменты. На сложных задачах она превосходит GPT-5 при 30% стоимости.

16 января 2026 г.

6 мин

Глава Qwen: Китай отстаёт от США в AI из-за нехватки compute

Джастин Лин из Alibaba оценил шансы Китая обогнать OpenAI в 20%. Разбираемся почему американские санкции меняют расстановку сил в AI-гонке.

13 января 2026 г.

7 мин

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GPT-5

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Статьи о GPT-5

OpenAI Codex Desktop: мульти-агентный кодинг приходит на Mac

Qwen3-Max-Thinking: Alibaba выпустила конкурента o3 и Claude Thinking

Что стоит за Kimi K2.5: команда Moonshot AI о будущем модели

Kimi K2.5: китайская open-source модель обошла GPT-5.2 и Claude Opus в кодинге

90% кода Claude Code написано самим Claude Code

ChatGPT и Claude начали цитировать Grokipedia — AI-энциклопедию Маска

K-образное освоение ИИ: почему разрыв между лидерами и отстающими только растёт

GPT-5.2 Pro побил рекорд на сложнейших математических задачах

Почему GPT-5 не может решить задачу для трёхлетки

GPT-5.2 решил 6-летнюю математическую задачу

Сотни AI-агентов написали браузер за неделю. Cursor показал будущее разработки

Orchestrator-8B: как маленькая модель NVIDIA обыгрывает GPT-5

Глава Qwen: Китай отстаёт от США в AI из-за нехватки compute

Похожие модели

o1-pro

GPT-4o

GPT-5.1 High

GPT-5.1 Thinking

GPT-5 Medium

GPT-5.1 Instant

GPT-5 mini

GPT-5 High