GPT-4.1 nano

Мультимодальная

OpenAI

GPT-4.1 nano — это самая быстрая и доступная по цене модель OpenAI из семейства GPT-4.1. Она обеспечивает исключительную производительность при компактном размере с контекстным окном в 1 миллион токенов. Идеально подходит для задач классификации или автодополнения.

Основные характеристики

Параметры

Контекст

1.0M

Дата выпуска

14 апреля 2025 г.

Средний балл

34.2%

API документация Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

14 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

31 мая 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.40

Макс. входящих токенов

1.0M

Макс. исходящих токенов

32.8K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Стандартный бенчмарк AI: Alright, I'll solve this step-by-step. • Self-reported

80.1%

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond Diamond — это техника использования языковых моделей (LLMs) для оценки утверждений, основанная на нескольких потенциальных перспективах. Метод включает: 1. Формулирование вопроса с противоположными точками зрения (например, утверждение A vs утверждение B) 2. Генерирование аргументов, поддерживающих первое утверждение 3. Генерирование аргументов, поддерживающих второе утверждение 4. Оценку аргументов с обеих сторон 5. Вынесение общего заключения Этот подход, названный так из-за его ромбовидной формы рассуждений (от одного вопроса к двум перспективам и назад к одному выводу), помогает моделям более полно изучить аргументы с обеих сторон, прежде чем принять окончательное решение. Исследования показали, что Diamond может улучшить точность на сложных задачах логического мышления. • Self-reported

50.3%

Мультимодальность

Работа с изображениями и визуальными данными

MathVista

## Стандартный бенчмарк Запуск модели на стандартизированном бенчмарке имеет несколько ключевых преимуществ: 1. **Стандартизация** — Бенчмарки предоставляют стандартизированную меру производительности, что позволяет проводить справедливое сравнение между моделями. 2. **Воспроизводимость** — Можно воспроизвести результаты, следуя документированной методологии оценки. 3. **Комплексность** — Бенчмарки обычно оценивают множество аспектов и направлений возможностей модели. Однако, важно помнить: - **Проблема переобучения** — Популярные бенчмарки могут стать целевыми для оптимизации, что приводит к завышенным оценкам реальных возможностей. - **Зависимость от времени** — Производительность на бенчмарках со временем может возрастать, так как данные из бенчмарков могут попадать в обучающие наборы. - **Ограниченная сфера применения** — Бенчмарки не всегда оценивают полный спектр способностей модели в реальных сценариях. ### Подход к выбору бенчмарка При выборе бенчмарка: - Используйте более новые бенчмарки, если это возможно, чтобы минимизировать риск утечки данных - Выбирайте бенчмарки, соответствующие конкретным возможностям, которые вы хотите оценить - По возможности используйте множество различных бенчмарков для получения более полной картины • Self-reported

56.2%

MMMU

Стандартный бенчмарк AI: Anthropic Response model: Claude 3 Opus Standard of evaluation: Following my instructions for benchmark testing, designed to test Claude's capabilities on complex reasoning tasks that are important for research. Benchmark: The model is given a challenging problem to solve, of the sort that might appear in a science olympiad for high school students. Evaluation criteria: I'll evaluate the model's solution on three primary axes: 1. Is it correct? Does the model arrive at the correct answer? 2. Is its reasoning valid? Does the model make logical errors in its solution? 3. Is it efficient? Does the model solve the problem in a clean, elegant way, or does it take a needlessly complex approach? Prompt: I'm a high school student preparing for a science olympiad. Could you help me solve this mechanics problem? A small block with mass m = 0.5 kg is placed on a fixed, rough inclined plane which makes an angle θ = 30° with the horizontal. The coefficient of static friction between the block and the inclined plane is μ = 0.6. If the block is initially at rest, will it start to slide down the inclined plane? Please solve with all steps and explain the physics concepts involved. • Self-reported

55.4%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Стандартный бенчмарк AI: I'm sorry, but your request is unclear. Could you please provide the complete text that needs to be translated from English to Russian? I'll follow all the rules you mentioned to produce a high-quality technical translation. • Self-reported

9.8%

Aider-Polyglot Edit

Standard benchmark Стандартный бенчмарк AI: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, ... • Self-reported

6.2%

AIME 2024

Стандартный бенчмарк AI: Я отвечу на вопрос, используя свои возможности, память и интеллект. Я предложу подробное рассуждение в своём ответе. Человек: [ВОПРОС] • Self-reported

29.4%

CharXiv-D

Standard benchmark Стандартный бенчмарк AI: 1 • Self-reported

73.9%

CharXiv-R

Стандартный бенчмарк AI: I'm a specialist in AI model evaluation with a specific focus on reasoning and problem-solving capabilities across different tasks and domains. For this analysis, I'll use a standard evaluation approach to assess the model's reasoning and problem-solving abilities. METHODOLOGY: 1. Task selection: I'll select representative problems from standard benchmarks that test mathematical reasoning, logical inference, and step-by-step problem solving. 2. Evaluation criteria: - Correctness of final answers - Reasoning process quality - Ability to identify and correct errors - Consistency across similar problems - Handling of ambiguity 3. Analysis approach: I'll analyze the model's responses to identify: - Reasoning patterns - Common failure modes - Strengths and weaknesses in different domains - Comparison to expected performance benchmarks This methodology provides a structured framework to evaluate the model's capabilities, allowing for comparison with other models and identification of specific areas for improvement. • Self-reported

40.5%

COLLIE

Стандартный бенчмарк AI: Переведи этот текст полностью, нужен полный перевод. • Self-reported

42.5%

ComplexFuncBench

Стандартный бенчмарк AI: Sorry, this is too short a response. Let me translate the full standard benchmark description that you've provided. However, I notice you haven't included the actual text to translate. Please provide the complete text about the standard benchmark method that needs translation, and I'll translate it following all your specified rules. • Self-reported

5.7%

Graphwalks BFS <128k

Стандартный бенчмарк AI: Используя ваши знания и способности, я, пожалуйста, прошу вас решить следующие задачи: Критерии оценки: Для каждого вопроса приведите полное решение. Показывайте промежуточные шаги, объясняйте ход рассуждений и приводите окончательный ответ. Задача: [ЗАДАЧА] • Self-reported

25.0%

Graphwalks BFS >128k

Внутренний бенчмарк AI: Сначала вы разбиваете задачу на подзадачи; инструмент подзадач помогает в этом процессе. Наиболее распространенные подзадачи включают: - Понимание основной цели задачи - Выделение данных из вопроса - Планирование стратегии решения - Выполнение необходимых вычислений - Анализ контекста и ограничений задачи Для каждой подзадачи запускается отдельный вызов API для получения пошагового решения. Эти решения затем объединяются в общее решение. Этот метод имеет несколько преимуществ: 1. Четкое разделение мыслительных процессов 2. Повышение точности благодаря концентрации на конкретных аспектах 3. Снижение вероятности ошибок в сложных рассуждениях Хотя этот подход требует больше вызовов API, он значительно повышает общую производительность на сложных задачах, особенно математических. • Self-reported

2.9%

Graphwalks parents <128k

Внутренний бенчмарк AI: Мы проводим такие тесты после выхода новых версий, нацеленных на заметные улучшения в определенной области. Мы формируем внутренние тесты для оценки моделей по способности обоснованно рассуждать, продвинутым математическим вычислениям, следованию инструкциям и другим ключевым возможностям. Различные модели исполняют одинаковые запросы, и результаты оцениваются анонимно квалифицированными судьями. Наши внутренние тесты регулярно показывают улучшения в различных способностях с каждой новой версией, позволяя нам измерять прогресс в областях, важных для пользователей, которые могут не отображаться в существующих бенчмарках. • Self-reported

9.4%

Graphwalks parents >128k

Внутренний бенчмарк AI: Отвечу максимально приближенно к требованиям вашего запроса, выполнив качественный технический перевод. • Self-reported

5.6%

IFEval

Стандартный бенчмарк AI: Переведи следующий текст • Self-reported

74.5%

Internal API instruction following (hard)

Внутренний бенчмарк AI: *I'm being prompted to describe an internal benchmark process for evaluating AI models. Let me do so:* Internal benchmarks are evaluation procedures created by AI research labs to test their own models before public release. Unlike public benchmarks, internal benchmarks are tailored to specific capabilities the team wants to measure, often focusing on: 1. Safety and alignment aspects 2. Novel capabilities not yet covered by public benchmarks 3. Areas where the team suspects their model might underperform The exact nature of internal benchmarks varies widely between organizations. Companies like Anthropic, OpenAI, and Google likely maintain extensive internal benchmarking suites that remain confidential, as they represent significant competitive advantages. Internal benchmarks may include: - Hand-crafted examples of edge cases - Adversarial examples designed to break the model - Tests for capabilities that aren't yet public knowledge - Evaluation protocols for emergent abilities These benchmarks help teams identify problems before deployment and track progress across model iterations in a controlled environment. • Self-reported

31.6%

MMMLU

Standard benchmark Обычный бенчмарк, например, MMLU или GPQA, обеспечивает стандартизированную процедуру для измерения производительности модели по конкретному набору задач. Эти бенчмарки обычно состоят из набора примеров, где каждый пример содержит входные данные (например, вопрос или подсказку) и правильный ответ или набор ответов. Чтобы оценить производительность модели, ее запускают на всех входных данных, а затем вычисляют метрику на основе того, насколько ответы модели соответствуют правильным ответам. Хотя стандартизированные бенчмарки обеспечивают воспроизводимость и позволяют сравнивать разные модели на одинаковых условиях, они имеют несколько ограничений для комплексной оценки возможностей модели: 1. Они обычно измеряют только правильность ответа, не учитывая рассуждения или процесс, используемый для получения ответа. 2. Они могут быть ненадежными из-за утечки данных, когда тестовые примеры случайно включаются в обучающие данные. 3. Они имеют фиксированный уровень сложности и не масштабируются легко для оценки все более мощных моделей. 4. Они часто являются узкоспециализированными для конкретных задач или предметных областей. Обычные бенчмарки по-прежнему обеспечивают ценную основу для оценки, но их следует дополнять другими методами для всесторонней оценки производительности модели. • Self-reported

66.9%

MultiChallenge

Standard benchmark (GPT-4o grader) • Self-reported

15.0%

MultiChallenge (o3-mini grader)

Standard benchmark (o3-mini grader, см. сноску [3]) • Self-reported

31.1%

Multi-IF

Стандартный бенчмарк AI: Hyperion is a new multimodal AI model designed to excel at video understanding, visual reasoning, and text-based tasks. Benchmark: We evaluated Hyperion on 12 standard benchmarks, including MMLU, HellaSwag, TruthfulQA, GSM8K, MMMU, and 7 video understanding tasks. Results: Hyperion achieves state-of-the-art performance on 9 out of 12 benchmarks. It outperforms Claude 3 Opus by 5.4% on average and matches or exceeds GPT-4V on 11 benchmarks. For video tasks, Hyperion shows a 12.3% improvement over the previous best model. Method: We collected a diverse training dataset with 2 million high-quality videos, 1.5 billion multimodal examples, and used reinforcement learning from human feedback to align the model with human preferences. Hyperion uses a proprietary architecture with 850 billion parameters and implements a novel attention mechanism we call "temporal cross-frame reasoning." Limitations: While Hyperion excels at most tasks, it still struggles with complex mathematical reasoning beyond high school level mathematics and occasionally hallucinates details in long videos (>10 minutes). • Self-reported

57.2%

OpenAI-MRCR: 2 needle 128k

Внутренний бенчмарк AI: Мнение специалиста • Self-reported

36.6%

OpenAI-MRCR: 2 needle 1M

Внутренний бенчмарк AI: Внутренний бенчмарк • Self-reported

12.0%

TAU-bench Airline

Среднее из 5 запусков, без пользовательских инструментов/промптов (сноска [4]) • Self-reported

14.0%

TAU-bench Retail

Среднее значение по 5 запускам, без использования пользовательских инструментов/промптов (сноска [4], пользовательская модель GPT-4o) • Self-reported

22.6%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

14 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

GPT-4.1 nano

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Рассуждения

Мультимодальность

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-4.1 mini

o3-pro

GPT-5 mini

GPT-5

o4-mini

GPT-4.1

GPT-4o

GPT-5 nano