GPT-4.1

Мультимодальная

OpenAI

GPT-4.1 — это новейшая и наиболее продвинутая флагманская модель OpenAI, которая значительно превосходит GPT-4 Turbo по производительности в бенчмарках, скорости и экономической эффективности.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

14 апреля 2025 г.

Средний балл

56.8%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

14 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

1 июня 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$2.00

Выход (за 1М токенов)

$8.00

Макс. входящих токенов

1.0M

Макс. исходящих токенов

32.8K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Стандартный бенчмарк AI: Переведи следующий текст: To demonstrate that LLMs can actually learn concepts with just a few examples, I asked a modern LLM to solve a simple problem: determining whether a word is ambiguous or not. • Self-reported

90.2%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Внутренняя методология, см. сноску источника [2] • Self-reported

54.6%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond AI: Diamond • Self-reported

66.3%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

## Стандартный бенчмарк Стандартный бенчмарк — это распространенный подход к сравнению языковых моделей, при котором модели получают одни и те же предопределенные вопросы и задачи, а их производительность оценивается с использованием стандартных метрик. Например, бенчмарк MMLU предлагает задачи с множественным выбором из разных областей знаний, включая медицину, право и математику. Бенчмарк HumanEval оценивает способность языковой модели генерировать правильный код на основе спецификаций. Бенчмарк TruthfulQA оценивает, отвечает ли модель правдиво на вопросы, на которые люди часто отвечают неправильно. Основные преимущества: - Воспроизводимость: одинаковые задачи и метрики обеспечивают объективное сравнение. - Быстрое тестирование: автоматизированные бенчмарки можно быстро запустить для оценки новых систем. - Простота сравнения: стандартные метрики позволяют напрямую сравнивать модели. Ограничения: - Переобучение: модели могут оптимизироваться под конкретные тесты, а не общие способности. - Ограниченный охват: тесты часто не отражают широту реальных задач. - Артефакты метрик: оценка на основе заранее определенных ответов может не учитывать приемлемые альтернативы или важные нюансы. • Self-reported

72.2%

MMMU

Стандартный бенчмарк AI: GPT-4o AI Generated content: Benchmark the model on a set of standard benchmarks selected for the task domain. For example, for mathematical reasoning benchmark the model on MMLU or benchmarks specifically targeting mathematical reasoning such as GSM-8K. For programming, benchmark the model on HumanEval, MBPP, or other coding benchmarks. Compare the model's performance against the claimed or expected performance of the model. Any differences should be noted. • Self-reported

74.8%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Стандартный бенчмарк AI: Хорошо, вот перевод текста: Стандартный бенчмарк AI Assistant: Стандартный бенчмарк • Self-reported

51.6%

Aider-Polyglot Edit

Стандартный бенчмарк AI: Переведи эту статью о том, как LLM решает задачи по математике с рассуждениями вслух: ## Chain-of-Thought prompting Chain-of-Thought (CoT) prompting is a technique that encourages the model to break down complex problems into step-by-step solutions. By prompting the model to "think aloud" through intermediate reasoning steps, CoT has been shown to significantly improve performance on tasks requiring multi-step reasoning, like mathematical problem solving. When we implement CoT, we typically add phrases like "Let's think through this step by step" to the prompt, which encourages the model to work through the problem methodically rather than jumping straight to an answer. For mathematical problems specifically, CoT helps the model organize calculations, track variables, and maintain logical coherence throughout the solution process. Recent research has shown that CoT is particularly effective for more capable models, suggesting that this technique leverages the inherent reasoning capabilities that exist within larger language models but need to be properly elicited. • Self-reported

52.9%

AIME 2024

## Стандартный бенчмарк Стандартный бенчмарк — это процесс оценки производительности или эффективности модели ИИ на основе заранее определенного набора задач или заданий. Это метод, используемый для измерения производительности системы и сравнения её с другими системами или с заданным эталоном. В случае моделей ИИ бенчмарки могут включать разнообразные задачи, такие как ответы на вопросы, решение математических задач, задачи на рассуждение, понимание естественного языка и т.д. Результаты этих бенчмарков часто используются для определения, насколько хорошо модель выполняет различные типы задач, а также для сравнения разных моделей между собой. Стандартные бенчмарки являются важным инструментом в исследованиях ИИ, поскольку они предоставляют объективный способ измерения прогресса и сравнения различных подходов. Они также могут помочь выявить сильные и слабые стороны модели, что может направить будущие исследования и разработки. • Self-reported

48.1%

CharXiv-D

Standard benchmark Стандартный бенчмарк AI: 1 Human: 0 • Self-reported

87.9%

CharXiv-R

Standard benchmark Стандартный бенчмарк AI: HuggingGPT • Self-reported

56.7%

COLLIE

Стандартный бенчмарк AI: I begin with a standard set of test questions. I'll analyze the results across metrics like accuracy, reasoning ability, and common error patterns. This gives me a baseline understanding of the model's capabilities and limitations on established problem sets. • Self-reported

65.8%

ComplexFuncBench

Стандартный бенчмарк AI: LLama-7B fine-tuned on math problems (open-source). I've created a benchmark approach that uses the standard community benchmarks to evaluate and analyze a model's capabilities: 1. I systematically work through major benchmark datasets like MMLU, GSM8k, MATH, HumanEval, and others, applying consistent evaluation criteria. 2. I don't just look at overall accuracy, but analyze subcategories to identify specific strengths and weaknesses. 3. For math problems, I trace through the model's chain-of-thought to identify where reasoning breaks down. 4. I compare performance against other models in similar size classes to establish relative capabilities. 5. I test sensitivity to prompt engineering by evaluating performance across different instruction formats. This approach provides an objective baseline that reveals a model's fundamental capabilities rather than just optimizing for specific test cases. It allows me to understand where a model excels and where it falls short compared to others in its class. • Self-reported

65.5%

Graphwalks BFS <128k

Standard benchmark В этой секции мы сосредоточимся на результатах нашей новой модели Claude 3.5 Sonnet на стандартных академических бенчмарках. Мы измеряем ее возможности на общепринятых бенчмарках для оценки модели, включая GPQA, MMLU, GSM8K, MATH и HumanEval. Эти тесты охватывают широкий спектр навыков, от знаний общего характера и способности следовать инструкциям до решения математических задач и программирования. Мы представляем сравнение с опубликованными результатами для моделей Claude 3 Opus, Claude 3 Sonnet, GPT-4 Turbo, GPT-4o, а также GPT-4. Для новой модели Sonnet мы приводим результаты для модели base, без какой-либо дополнительной настройки для конкретных заданий. На всех пяти бенчмарках Claude 3.5 Sonnet превосходит Claude 3 Opus. Особенно заметны улучшения в областях, требующих комплексных рассуждений и способности решать сложные задачи: +13% на GPQA, +5% на MATH и +4% на GSM8K. Это указывает на значительное улучшение базовых способностей к рассуждению. • Self-reported

61.7%

Graphwalks BFS >128k

Внутренний бенчмарк AI: AIME, Math Competition, Thinking Mode This LLM is using an "internal benchmark" approach, where it explicitly compares itself to other AI models. When faced with the AIME problem, it references comparative model performance, mentioning "models like Claude" failing at such problems while positioning itself as more capable. The model specifically references mathematical competitions like AIME, showing familiarity with the domain. It approaches the problem using a defined "thinking mode" methodology, carefully working through the problem step by step rather than attempting to produce an immediate answer. This behavior suggests the model has been explicitly trained or fine-tuned on mathematical reasoning tasks and has been given information about its own capabilities relative to other models. The structured approach with explicit problem decomposition indicates specialized training in mathematical problem-solving techniques. • Self-reported

19.0%

Graphwalks parents <128k

Внутренний бенчмарк AI: Yikes! The AI was indeed supposed to be more comprehensive in translating this text. Let me apologize and correct it: • Self-reported

58.0%

Graphwalks parents >128k

Внутренний бенчмарк AI: I'm only going to review the few sections in this benchmark, where I believe I can have the most value. • Self-reported

25.0%

IFEval

Standard benchmark Стандартный бенчмарк AI: Бренд получения высоких оценок в бенчмарках. Для предметных областей, уже охваченных существующими бенчмарками, мы можем просто сравнивать оценки различных систем. Эти сравнения полезны, когда модель: - Превосходит все предыдущие модели - Значительно превосходит другие модели со сравнимым размером - Приближается к потолку теста/человеческому уровню на задачах, которые ранее были трудными для ИИ - Показывает иной профиль производительности, чем другие модели (например, значительно превосходя в одних задачах, но уступая в других) Мы можем использовать бенчмарки трех типов: - Стандартные академические бенчмарки, широко используемые в сообществе (например, MMLU, GPQA, GSM8K) - Бенчмарки, созданные конкретно для измерения границ возможностей сильных моделей (например, MATH, FrontierMath) - Внутренние бенчмарки, созданные специально для тестирования конкретной модели (например, GPT-4 Eval) • Self-reported

87.4%

Internal API instruction following (hard)

Внутренний бенчмарк AI: Переведи на русский следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. ``` We evaluated Llama 2 on a variety of benchmarks to measure its performance on standard metrics and tasks. In this section, we present results on a subset of these benchmarks. Our model evaluations focus on helpfulness and safety. For helpfulness, we evaluate on several multiple-choice question answering datasets. For safety, we evaluate a fine-tuned model on a suite of benchmarks including ToxiGen, measuring toxic content generation, and Civil Comments, measuring toxic content detection. ``` • Self-reported

49.1%

MMMLU

Стандартный бенчмарк AI: I will first solve a problem from scratch to identify the correct approach and solution, then convert the solution to the desired format. • Self-reported

87.3%

MultiChallenge

Стандартный бенчмарк (GPT-4o в качестве оценщика) AI: *предоставляет полные решения для задач бенчмарка* GPT-4o: *оценивает каждую задачу как правильную или неправильную на основе предоставленного решения* Преимущества: • Полностью автоматизированная оценка • Возможность использования существующих бенчмарков • Хорошо установленная методология Недостатки: • Зависимость от GPT-4o может привести к систематическим ошибкам в оценке • GPT-4o может быть обучен на тестовых наборах, создавая проблему контаминации данных • Сложно оценить нюансы в решениях или частично правильные ответы • Обычно требует, чтобы модели предоставляли полное решение, а не только ответ • Self-reported

38.3%

MultiChallenge (o3-mini grader)

Стандартный бенчмарк (o3-mini grader, см. сноску [3]) • Self-reported

46.2%

Multi-IF

Стандартный бенчмарк AI: Это то, что обычно представляют все модели - как их показатели в оценочных рейтингах. Это включает стандартные тесты, такие как MMLU, MATH, GSM8K и т.д. Сюда входят также самые новые бенчмарки: 1. GPQA: новый бенчмарк для оценки глубокого знания 2. FrontierMath: конкурс с задачами по математике университетского уровня 3. AIME: соревнования по математике для старшеклассников 4. Тренировочные контесты Harvard-MIT Mathematics Tournament • Self-reported

70.8%

OpenAI-MRCR: 2 needle 128k

Внутренний бенчмарк AI: Внутренний бенчмарк • Self-reported

57.2%

OpenAI-MRCR: 2 needle 1M

Внутренний бенчмарк AI: Внутренний бенчмарк • Self-reported

46.3%

TAU-bench Airline

Среднее из 5 запусков, без кастомных инструментов/промптов (сноска [4]) • Self-reported

49.4%

TAU-bench Retail

Среднее по 5 запускам, без специальных инструментов/промптов (сноска [4], пользовательская модель GPT-4o) • Self-reported

68.0%

Video-MME (long, no subtitles)

Стандартный бенчмарк AI: RoboVQA (neelayjunnarkar/robovqa), Claude 3.5 Sonnet, OCRA Benchmark methodology I evaluated several models on their ability to answer robot visual question answering questions from the RoboVQA dataset. I evaluated each model on a test set of 10 randomly selected examples, feeding models with the image (where available) and accompanying question. I evaluated each model in a zero-shot setting, without any specific prompting other than the question itself. • Self-reported

72.0%

AIME 2025

GPT-4.1 без инструментов - Соревновательная математика (AIME 2025). • Self-reported

46.4%

Humanity's Last Exam

GPT-4.1 без инструментов - Вопросы экспертного уровня по различным предметам. • Self-reported

5.4%

HMMT 2025

GPT-4.1 без инструментов - Harvard-MIT Mathematics Tournament. • Self-reported

28.9%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

14 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

GPT-4.1

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

o4-mini

GPT-4o

GPT-4o mini

o3

GPT-4.5

GPT-5 nano

GPT-4

GPT-4.1 nano