OpenAI logo

o3-mini

OpenAI

Уменьшенная версия O3, которая предположительно будет предлагать улучшенные мультимодальные возможности, более совершенное логическое мышление и более эффективное использование ресурсов по сравнению с предыдущими моделями, при этом сохраняя высокую производительность в основных задачах.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
30 января 2025 г.
Средний балл
56.9%

Временная шкала

Ключевые даты в истории модели
Анонс
30 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
30 сентября 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$1.10
Выход (за 1М токенов)
$4.40
Макс. входящих токенов
200.0K
Макс. исходящих токенов
100.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
o3-mini high AI: Я буду решать задачи из соревнования по математике AIME. Я сначала тщательно проанализирую задачу, разобью ее на подзадачи и буду решать каждую подзадачу шаг за шагом. Я буду использовать все необходимые математические инструменты, включая алгебру, геометрию, комбинаторику, теорию чисел и т.д. Моя цель — решить задачу правильно и получить верный ответ. Каждую задачу я буду решать следующим образом: 1. Внимательно прочитаю задачу, выделю все важные детали и определю, что требуется найти. 2. Продумаю общую стратегию решения, определив ключевые концепции и теоремы, которые могут быть полезны. 3. Выполню решение, разбив его на четкие шаги и обеспечив полное обоснование каждого шага. 4. Проверю свое решение, убедившись, что оно удовлетворяет всем условиям задачи. 5. Запишу окончательный ответ в требуемом формате (обычно целое число от 0 до 999). Я буду внимательно следить за техническими деталями, избегать вычислительных ошибок и проверять свою работу. Я также буду рассматривать альтернативные подходы, если мой первоначальный подход окажется сложным или нерезультативным.Self-reported
86.9%

Программирование

Тесты на навыки программирования
SWE-Bench Verified
Метод подтверждения предсказаний (Verified Predictions), используемый в стандартной оценке, полагается на внешний источник для определения истинности предсказаний модели. Это подразумевает предоставление модели вопроса с определенным контекстом и сравнение ее ответа с заранее определенным эталонным ответом. Если эталонный ответ отсутствует, модель может оцениваться на основе соответствия ее ответа другим источникам, например, запрашивая подтверждение у более надежной модели или человека-эксперта. Проверка предсказаний чрезвычайно полезна для оценки фактической точности модели, особенно в задачах со скрытой золотой истиной, как в случае поколения "Frontier AGI" моделей. Эти системы могут делать предсказания о содержании, которое малоизвестно даже людям-экспертам. Например, некоторые LLM могут производить суждения о математических доказательствах, которые являются настолько сложными, что даже опытным математикам трудно их проверить. Задача проверки предсказаний становится еще сложнее, когда модели предлагают новые научные теории или прогнозы будущих технологических достижений, которые невозможно немедленно проверить. В таких случаях важно полагаться на строгие методы оценки, которые могут подтвердить внутреннюю согласованность предсказаний и их соответствие существующему корпусу знаний, даже если окончательное эмпирическое подтверждение пока недоступно.Self-reported
49.3%

Математика

Математические задачи и вычисления
MATH
o3-mini high AI: 1/10/24 Решает несколько математических задач со средней школы до первого курса колледжа. Это хорошо отражено во внутренних механизмах модели: она рассматривает вопрос с формальной точки зрения, моделирует способы решения и следует им. Не справляется с некоторыми более сложными задачами, требующими глубокого понимания. Сильные стороны: - Твердо оперирует алгебраическими методами - Хорошо формализует задачи в уравнения - Умеет выполнять алгебраические преобразования - Знает тригонометрические тождества - Знает основы вероятности и статистики Ограничения: - Совершает ошибки в сложных многошаговых выводах, особенно в геометрии - Может допускать вычислительные ошибки - Не обладает глубоким пониманием комбинаторики - Иногда пытается использовать неподходящие алгоритмы для решения задач Модель решает математические задачи HS/early-колледж на уровне компетентного, но не исключительного ученика. Она хорошо справляется с задачами, требующими следования известным алгоритмам, но борется с теми, что требуют более глубокого понимания или творческого мышления.Self-reported
97.9%
MGSM
Размер модели: o3-mini Температура: высокая (0,7) Описание: o3-mini с высокой температурой (0,7) — это конфигурация, повышающая творческие способности и разнообразие выходных данных модели o3-mini. Установка высокой температуры позволяет модели исследовать более широкий спектр возможных ответов, что может быть полезно для творческих задач или генерации разнообразных идей. Однако это может привести к снижению предсказуемости и точности ответов по сравнению с настройками более низкой температуры.Self-reported
92.0%

Рассуждения

Логические рассуждения и анализ
GPQA
DIAMOND (DIsentangled AMortized ONline Detective) - это фреймворк, разработанный для оптимизации обнаружения и изоляции сбоев при работе с графами вычислений. В отличие от многих современных подходов, DIAMOND особенно эффективен в условиях зашумленных наблюдений и может обрабатывать очень большие графы вычислений без потери производительности. Ключевые особенности: 1. Амортизированное обучение: DIAMOND использует глубокие нейронные сети для обобщения паттернов сбоев, что позволяет ему быстро идентифицировать проблемы в ранее невиденных графах. 2. Онлайн-анализ: фреймворк способен обрабатывать потоковые данные и адаптироваться к изменяющимся условиям в реальном времени. 3. Диагностика причинно-следственных связей: DIAMOND разделяет причины и следствия сбоев, позволяя точно определить первичный источник проблемы. 4. Масштабируемость: метод успешно работает с графами, содержащими миллионы узлов и рёбер, сохраняя при этом высокую точность. Эксперименты показывают, что DIAMOND превосходит существующие методы обнаружения сбоев на 17-23% по метрике F1 и работает в 30-100 раз быстрее при анализе крупномасштабных систем. Фреймворк был успешно протестирован на различных инфраструктурах машинного обучения и распределенных системах, демонстрируя высокую эффективность в реальных сценариях использования.Self-reported
77.2%

Другие тесты

Специализированные бенчмарки
Aider-Polyglot
оценка на бенчмаркеSelf-reported
66.7%
Aider-Polyglot Edit
оценка по бенчмаркуSelf-reported
60.4%
AIME 2024
оценка на тестовом набореSelf-reported
87.3%
COLLIE
оценка по бенчмаркуSelf-reported
98.7%
ComplexFuncBench
оценка на бенчмаркеSelf-reported
17.6%
FrontierMath
pass @ 1Self-reported
9.2%
Graphwalks BFS <128k
результат бенчмаркаSelf-reported
51.0%
Graphwalks parents <128k
оценка бенчмаркаSelf-reported
58.3%
IFEval
оценка на бенчмаркеSelf-reported
93.9%
Internal API instruction following (hard)
Оценка эффективностиSelf-reported
50.0%
LiveBench
o3-mini high Минималистичная модель типа GPT, обученная отвечать на вопросы об окружающем мире. Хорошо работает с общими знаниями. Предоставляет справочную информацию без опоры на специальные инструменты. Производительность Преимущества: Точные и краткие ответы, полезные для быстрых справочных запросов. Отличная справочная система. Ограничения: Отсутствие инструментов и ограниченные возможности для решения сложных задач, где требуются вычисления. Подсказки Предоставляет прямые ответы на вопросы о мире, истории, науке и культуре. Пример запроса: "Сколько жителей в Токио?" Подходит для • Быстрого получения фактов и данных • Общих знаний и справочных запросов • Образовательных целейSelf-reported
84.6%
MultiChallenge
показатель эффективностиSelf-reported
39.9%
MultiChallenge (o3-mini grader)
показатель эффективности в тестахSelf-reported
50.2%
Multi-IF
оценка по бенчмаркуSelf-reported
79.5%
Multilingual MMLU
оценка бенчмаркаSelf-reported
80.7%
OpenAI-MRCR: 2 needle 128k
оценка в бенчмаркеSelf-reported
18.7%
SimpleQA
точностьSelf-reported
15.0%
SWE-Lancer
процентный показательSelf-reported
18.0%
SWE-Lancer (IC-Diamond subset)
процентный показательSelf-reported
7.4%
TAU-bench Airline
оценка на бенчмаркеSelf-reported
32.4%
TAU-bench Retail
оценка на бенчмаркеSelf-reported
57.6%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
30 января 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.