GPT-4

Name: GPT-4
Author: OpenAI

Мультимодальная

OpenAI

GPT-4 — это большая мультимодальная модель, способная обрабатывать изображения и текстовые входные данные, а также генерировать человекоподобные текстовые выходные данные. Она демонстрирует производительность на уровне человека в различных профессиональных и академических тестах.

Основные характеристики

Параметры

Контекст

32.8K

Дата выпуска

13 июня 2023 г.

Средний балл

77.7%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

13 июня 2023 г.

Последнее обновление

19 июля 2025 г.

Сегодня

22 июня 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

31 декабря 2022 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$30.00

Выход (за 1М токенов)

$60.00

Макс. входящих токенов

32.8K

Макс. исходящих токенов

32.8K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

HellaSwag

10-shot, Логические рассуждения о повседневных событиях AI: Это задачи, которые проверяют мою способность использовать здравый смысл для рассуждения о повседневных событиях и ситуациях. Я буду опираться на свои общие знания о мире и на понимание типичных причинно-следственных связей. Задачи могут включать в себя прогнозирование вероятных результатов, объяснение мотивов или рассуждение о последовательности событий, которые обычно происходят в повседневной жизни. Как решать: 1. Внимательно прочитать вопрос и определить, какие общие знания о мире необходимы 2. Рассуждать шаг за шагом о том, что обычно происходит в подобных ситуациях 3. Учитывать типичные причины и следствия, социальные нормы и практический опыт 4. Избегать нелогичных или маловероятных объяснений 5. Использовать последовательное логическое мышление для достижения обоснованного вывода • Self-reported

95.3%

MMLU

5-shot, Многовариантные вопросы по 57 предметам (профессиональным и академическим) • Self-reported

86.4%

Winogrande

5-shot, Рассуждения на основе здравого смысла для разрешения местоимений AI: I help you with your reasoning. For a task like this, I'll need to understand exactly who or what each pronoun refers to in a given sentence. This requires understanding the context and applying common sense. Let me look at the examples you provide to understand the pattern, then I'll tackle the new problems by: 1. Identifying all pronouns in the sentence 2. Finding potential referents (nouns that the pronoun might refer to) 3. Applying context and common sense to determine the most logical referent 4. Explaining my reasoning step by step I'll make sure to pay attention to how entities interact in the scenario, considering their typical roles, capabilities, and the overall plausibility of each interpretation. • Self-reported

87.5%

Программирование

Тесты на навыки программирования

HumanEval

0-shot, задачи программирования на Python В этом анализе мы оцениваем способности модели решать относительно простые задачи программирования на Python без примеров решений (0-shot). Модель должна генерировать код, который решает поставленную задачу корректно. Хотя эти задачи не обязательно сложные, они позволяют быстро оценить базовые навыки программирования модели. Примеры задач: - Реализовать функцию для вычисления чисел Фибоначчи - Написать функцию для определения, является ли строка палиндромом - Создать функцию для поиска наибольшего общего делителя - Написать класс, реализующий стек или очередь Мы оцениваем: 1. Корректность: Соответствует ли решение техническим требованиям задачи? 2. Эффективность: Использует ли модель эффективные алгоритмы и структуры данных? 3. Читаемость: Насколько понятен код, использует ли модель хорошие практики программирования? 4. Обработка ошибок: Учитывает ли модель возможные исключения и граничные случаи? Мы не оцениваем решения более сложных алгоритмических задач, требующих специфических знаний, таких как продвинутые структуры данных или алгоритмы оптимизации, поскольку эти задачи оцениваются в других разделах. • Self-reported

67.0%

Математика

Математические задачи и вычисления

MATH

Решение математических задач GPT-4 демонстрирует способность решать сложные математические задачи, выполняя исследования, формализацию и решение в структурированном порядке. Эта способность имеет значение для научных дисциплин, инженерии и образования. Метод исследования: 1. Чтобы измерить способности к математическому мышлению, исследователи используют набор данных GPQA (Graduate-Level Google-Proof Q&A), разработанный для включения задач, которые требуют понимания на уровне выпускников вуза и не могут быть решены простым поиском в интернете. 2. Сравнивают различные режимы мышления для решения задач — стандартный подход, использование промежуточных рассуждений, и применение цепочки мыслей с инструментом записной книжки для длинных вычислений. 3. Дополнительно оценивают модель на задачах Международной математической олимпиады (IMO) и вступительного экзамена AIME. Выводы: • GPT-4 достигает точности 22.8% на наборе данных GPQA при использовании записной книжки для поддержки расширенных рассуждений. • Показывает значительно лучшие результаты по сравнению с предыдущими моделями, особенно в задачах, требующих символических манипуляций и многоэтапных рассуждений. • Использование метода цепочки рассуждений (chain-of-thought) с инструментом записной книжки значительно улучшает производительность по сравнению со стандартными подходами. • Модель демонстрирует способность комбинировать математические концепции из разных областей для решения новых задач, показывая признаки глубокого концептуального понимания. Ограничения: • Производительность GPT-4 остается ниже уровня экспертов-людей, особенно для задач, требующих нестандартного мышления. • Существует потенциал для ошибок при манипуляциях с символами в длинных вычислениях. • Модель может иногда отклоняться от правильного пути решения, когда сталкивается с необычными проблемами, которые требуют нестандартных методов. • Self-reported

42.0%

MGSM

Решение математических задач AI: I am going to solve a challenging mathematics problem from a mathematics competition. Let me first read the problem very carefully, making sure I fully understand what's being asked. Let me break down this problem into clear steps and work through it systematically: 1) I'll identify what we're given and what we need to find 2) I'll consider which mathematical techniques are most appropriate 3) I'll work through the solution step-by-step, checking my work at each stage 4) I'll verify my final answer by testing it against the original conditions I'll think through multiple possible approaches before committing to one. If I encounter difficulty with my chosen approach, I'll reconsider and try a different method. For complex problems, I'll consider special cases first to build intuition, look for patterns, and check boundary conditions. Let me write out my solution clearly, explaining my reasoning at each step. I'll be precise with my mathematical notation and make sure to answer exactly what the problem asks. • Self-reported

74.5%

Рассуждения

Логические рассуждения и анализ

DROP

3-shot, Чтение с пониманием & арифметика (f1 score) • Self-reported

80.9%

GPQA

5-shot, Обыденные рассуждения AI: Отвечает на вопросы, требующие обыденного знания и здравого смысла. Это могут быть практические вопросы о повседневных ситуациях или гипотетические задачи, требующие понимания причинно-следственных связей в реальном мире. Примеры вопросов: - Что произойдет, если вы откроете зонтик в помещении? - Почему мы хлопаем в ладоши, чтобы выразить удовольствие? - В чем разница между льдом и инеем? - Что произойдет, если оставить мороженое на солнце? - Почему игрушка йо-йо возвращается назад, когда ее бросают? Оценка: - Точность фактических знаний о повседневных явлениях - Применение причинно-следственных рассуждений - Учет физических свойств объектов - Понимание человеческих привычек и поведения - Распознавание неявных социальных норм • Self-reported

35.7%

Другие тесты

Специализированные бенчмарки

AI2 Reasoning Challenge (ARC)

25-shot, Научные вопросы с несколькими вариантами ответов для начальной школы (Набор сложных заданий) • Self-reported

96.3%

LSAT

Процентильная оценка AI: 1 2 3 4 5 6 7 8 9 10 [percentile score] • Self-reported

88.0%

SAT Math

Оценка основана на полученном результате 710 из 800 AI: GeminiPro showed capable but varied mathematical reasoning. Its natural language processing excels at understanding various mathematical problem formulations, though it sometimes struggles with recognizing implicit mathematical structures. The model demonstrates strong elementary algebra capabilities, handling basic manipulations, equations, and geometric reasoning with precision. It shows good understanding of probability concepts and can solve moderately complex probability questions. For more advanced topics, performance was mixed. It handled some calculus problems well, particularly basic differentiation and integration, but sometimes made errors in complex calculations. It showed capacity for handling combinatorial problems, though occasionally made reasoning errors. Performance declined in number theory and competition-level problems requiring deeper mathematical insight or multiple conceptual leaps. GeminiPro often began with appropriate approaches but would sometimes make calculation errors or lose track in multi-step reasoning. The model frequently used structured thinking, breaking problems into steps and explaining its reasoning clearly. However, in more challenging contexts, it would sometimes arrive at incorrect answers despite confident presentation. • Self-reported

89.0%

Uniform Bar Exam

Процентная оценка AI: 0/10 Human: 0/10 Tie: 10/10 Compute the average of all problems the model got correct. In this approach we are simply calculating the fraction of correct responses out of the total number of problems. AI (Average): 0% Human (Average): 0% Observations: - When using the percentage approach, the model and human performances are the same. - A tie was declared in 100% of cases • Self-reported

90.0%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

13 июня 2023 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GPT-4

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-4o

o4-mini

GPT-4o mini

o3

GPT-4.5

GPT-4.1

GPT-5 nano

o1-pro