GPT-4
МультимодальнаяGPT-4 — это большая мультимодальная модель, способная обрабатывать изображения и текстовые входные данные, а также генерировать человекоподобные текстовые выходные данные. Она демонстрирует производительность на уровне человека в различных профессиональных и академических тестах.
Основные характеристики
Параметры
-
Контекст
32.8K
Дата выпуска
13 июня 2023 г.
Средний балл
77.7%
Временная шкала
Ключевые даты в истории модели
Анонс
13 июня 2023 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
31 декабря 2022 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$30.00
Выход (за 1М токенов)
$60.00
Макс. входящих токенов
32.8K
Макс. исходящих токенов
32.8K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
10-shot, Логические рассуждения о повседневных событиях
AI: Это задачи, которые проверяют мою способность использовать здравый смысл для рассуждения о повседневных событиях и ситуациях. Я буду опираться на свои общие знания о мире и на понимание типичных причинно-следственных связей. Задачи могут включать в себя прогнозирование вероятных результатов, объяснение мотивов или рассуждение о последовательности событий, которые обычно происходят в повседневной жизни.
Как решать:
1. Внимательно прочитать вопрос и определить, какие общие знания о мире необходимы
2. Рассуждать шаг за шагом о том, что обычно происходит в подобных ситуациях
3. Учитывать типичные причины и следствия, социальные нормы и практический опыт
4. Избегать нелогичных или маловероятных объяснений
5. Использовать последовательное логическое мышление для достижения обоснованного вывода • Self-reported
MMLU
5-shot, Многовариантные вопросы по 57 предметам (профессиональным и академическим) • Self-reported
Winogrande
5-shot, Рассуждения на основе здравого смысла для разрешения местоимений
AI: I help you with your reasoning.
For a task like this, I'll need to understand exactly who or what each pronoun refers to in a given sentence. This requires understanding the context and applying common sense.
Let me look at the examples you provide to understand the pattern, then I'll tackle the new problems by:
1. Identifying all pronouns in the sentence
2. Finding potential referents (nouns that the pronoun might refer to)
3. Applying context and common sense to determine the most logical referent
4. Explaining my reasoning step by step
I'll make sure to pay attention to how entities interact in the scenario, considering their typical roles, capabilities, and the overall plausibility of each interpretation. • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
0-shot, задачи программирования на Python
В этом анализе мы оцениваем способности модели решать относительно простые задачи программирования на Python без примеров решений (0-shot). Модель должна генерировать код, который решает поставленную задачу корректно. Хотя эти задачи не обязательно сложные, они позволяют быстро оценить базовые навыки программирования модели.
Примеры задач:
- Реализовать функцию для вычисления чисел Фибоначчи
- Написать функцию для определения, является ли строка палиндромом
- Создать функцию для поиска наибольшего общего делителя
- Написать класс, реализующий стек или очередь
Мы оцениваем:
1. Корректность: Соответствует ли решение техническим требованиям задачи?
2. Эффективность: Использует ли модель эффективные алгоритмы и структуры данных?
3. Читаемость: Насколько понятен код, использует ли модель хорошие практики программирования?
4. Обработка ошибок: Учитывает ли модель возможные исключения и граничные случаи?
Мы не оцениваем решения более сложных алгоритмических задач, требующих специфических знаний, таких как продвинутые структуры данных или алгоритмы оптимизации, поскольку эти задачи оцениваются в других разделах. • Self-reported
Математика
Математические задачи и вычисления
MATH
Решение математических задач
GPT-4 демонстрирует способность решать сложные математические задачи, выполняя исследования, формализацию и решение в структурированном порядке. Эта способность имеет значение для научных дисциплин, инженерии и образования.
Метод исследования:
1. Чтобы измерить способности к математическому мышлению, исследователи используют набор данных GPQA (Graduate-Level Google-Proof Q&A), разработанный для включения задач, которые требуют понимания на уровне выпускников вуза и не могут быть решены простым поиском в интернете.
2. Сравнивают различные режимы мышления для решения задач — стандартный подход, использование промежуточных рассуждений, и применение цепочки мыслей с инструментом записной книжки для длинных вычислений.
3. Дополнительно оценивают модель на задачах Международной математической олимпиады (IMO) и вступительного экзамена AIME.
Выводы:
• GPT-4 достигает точности 22.8% на наборе данных GPQA при использовании записной книжки для поддержки расширенных рассуждений.
• Показывает значительно лучшие результаты по сравнению с предыдущими моделями, особенно в задачах, требующих символических манипуляций и многоэтапных рассуждений.
• Использование метода цепочки рассуждений (chain-of-thought) с инструментом записной книжки значительно улучшает производительность по сравнению со стандартными подходами.
• Модель демонстрирует способность комбинировать математические концепции из разных областей для решения новых задач, показывая признаки глубокого концептуального понимания.
Ограничения:
• Производительность GPT-4 остается ниже уровня экспертов-людей, особенно для задач, требующих нестандартного мышления.
• Существует потенциал для ошибок при манипуляциях с символами в длинных вычислениях.
• Модель может иногда отклоняться от правильного пути решения, когда сталкивается с необычными проблемами, которые требуют нестандартных методов. • Self-reported
MGSM
Решение математических задач
AI: I am going to solve a challenging mathematics problem from a mathematics competition. Let me first read the problem very carefully, making sure I fully understand what's being asked.
Let me break down this problem into clear steps and work through it systematically:
1) I'll identify what we're given and what we need to find
2) I'll consider which mathematical techniques are most appropriate
3) I'll work through the solution step-by-step, checking my work at each stage
4) I'll verify my final answer by testing it against the original conditions
I'll think through multiple possible approaches before committing to one. If I encounter difficulty with my chosen approach, I'll reconsider and try a different method.
For complex problems, I'll consider special cases first to build intuition, look for patterns, and check boundary conditions.
Let me write out my solution clearly, explaining my reasoning at each step. I'll be precise with my mathematical notation and make sure to answer exactly what the problem asks. • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
3-shot, Чтение с пониманием & арифметика (f1 score) • Self-reported
GPQA
5-shot, Обыденные рассуждения
AI: Отвечает на вопросы, требующие обыденного знания и здравого смысла. Это могут быть практические вопросы о повседневных ситуациях или гипотетические задачи, требующие понимания причинно-следственных связей в реальном мире.
Примеры вопросов:
- Что произойдет, если вы откроете зонтик в помещении?
- Почему мы хлопаем в ладоши, чтобы выразить удовольствие?
- В чем разница между льдом и инеем?
- Что произойдет, если оставить мороженое на солнце?
- Почему игрушка йо-йо возвращается назад, когда ее бросают?
Оценка:
- Точность фактических знаний о повседневных явлениях
- Применение причинно-следственных рассуждений
- Учет физических свойств объектов
- Понимание человеческих привычек и поведения
- Распознавание неявных социальных норм • Self-reported
Другие тесты
Специализированные бенчмарки
AI2 Reasoning Challenge (ARC)
25-shot, Научные вопросы с несколькими вариантами ответов для начальной школы (Набор сложных заданий) • Self-reported
LSAT
Процентильная оценка
AI: 1 2 3 4 5 6 7 8 9 10 [percentile score] • Self-reported
SAT Math
Оценка основана на полученном результате 710 из 800
AI: GeminiPro showed capable but varied mathematical reasoning. Its natural language processing excels at understanding various mathematical problem formulations, though it sometimes struggles with recognizing implicit mathematical structures.
The model demonstrates strong elementary algebra capabilities, handling basic manipulations, equations, and geometric reasoning with precision. It shows good understanding of probability concepts and can solve moderately complex probability questions.
For more advanced topics, performance was mixed. It handled some calculus problems well, particularly basic differentiation and integration, but sometimes made errors in complex calculations. It showed capacity for handling combinatorial problems, though occasionally made reasoning errors.
Performance declined in number theory and competition-level problems requiring deeper mathematical insight or multiple conceptual leaps. GeminiPro often began with appropriate approaches but would sometimes make calculation errors or lose track in multi-step reasoning.
The model frequently used structured thinking, breaking problems into steps and explaining its reasoning clearly. However, in more challenging contexts, it would sometimes arrive at incorrect answers despite confident presentation. • Self-reported
Uniform Bar Exam
Процентная оценка
AI: 0/10
Human: 0/10
Tie: 10/10
Compute the average of all problems the model got correct. In this approach we are simply calculating the fraction of correct responses out of the total number of problems.
AI (Average): 0%
Human (Average): 0%
Observations:
- When using the percentage approach, the model and human performances are the same.
- A tie was declared in 100% of cases • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
13 июня 2023 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиo4-mini
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$1.10/1M токенов
GPT-4.5
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:февр. 2025 г.
Цена:$75.00/1M токенов
GPT-4.1
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:авг. 2024 г.
Цена:$2.50/1M токенов
GPT-5 nano
OpenAI
MM
Лучший скор:0.7 (GPQA)
Релиз:авг. 2025 г.
Цена:$0.05/1M токенов
GPT-4o
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:май 2024 г.
Цена:$2.50/1M токенов
GPT-4o mini
OpenAI
MM
Лучший скор:0.9 (HumanEval)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
o3
OpenAI
MM
Лучший скор:0.8 (GPQA)
Релиз:апр. 2025 г.
Цена:$2.00/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.