o3-mini

Name: o3-mini
Author: OpenAI

OpenAI

Уменьшенная версия O3, которая предположительно будет предлагать улучшенные мультимодальные возможности, более совершенное логическое мышление и более эффективное использование ресурсов по сравнению с предыдущими моделями, при этом сохраняя высокую производительность в основных задачах.

Основные характеристики

Параметры

Контекст

200.0K

Дата выпуска

30 января 2025 г.

Средний балл

56.9%

API документация Репозиторий Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

30 января 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

23 июня 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

30 сентября 2023 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$1.10

Выход (за 1М токенов)

$4.40

Макс. входящих токенов

200.0K

Макс. исходящих токенов

100.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

o3-mini high AI: Я буду решать задачи из соревнования по математике AIME. Я сначала тщательно проанализирую задачу, разобью ее на подзадачи и буду решать каждую подзадачу шаг за шагом. Я буду использовать все необходимые математические инструменты, включая алгебру, геометрию, комбинаторику, теорию чисел и т.д. Моя цель — решить задачу правильно и получить верный ответ. Каждую задачу я буду решать следующим образом: 1. Внимательно прочитаю задачу, выделю все важные детали и определю, что требуется найти. 2. Продумаю общую стратегию решения, определив ключевые концепции и теоремы, которые могут быть полезны. 3. Выполню решение, разбив его на четкие шаги и обеспечив полное обоснование каждого шага. 4. Проверю свое решение, убедившись, что оно удовлетворяет всем условиям задачи. 5. Запишу окончательный ответ в требуемом формате (обычно целое число от 0 до 999). Я буду внимательно следить за техническими деталями, избегать вычислительных ошибок и проверять свою работу. Я также буду рассматривать альтернативные подходы, если мой первоначальный подход окажется сложным или нерезультативным. • Self-reported

86.9%

Программирование

Тесты на навыки программирования

SWE-Bench Verified

Метод подтверждения предсказаний (Verified Predictions), используемый в стандартной оценке, полагается на внешний источник для определения истинности предсказаний модели. Это подразумевает предоставление модели вопроса с определенным контекстом и сравнение ее ответа с заранее определенным эталонным ответом. Если эталонный ответ отсутствует, модель может оцениваться на основе соответствия ее ответа другим источникам, например, запрашивая подтверждение у более надежной модели или человека-эксперта. Проверка предсказаний чрезвычайно полезна для оценки фактической точности модели, особенно в задачах со скрытой золотой истиной, как в случае поколения "Frontier AGI" моделей. Эти системы могут делать предсказания о содержании, которое малоизвестно даже людям-экспертам. Например, некоторые LLM могут производить суждения о математических доказательствах, которые являются настолько сложными, что даже опытным математикам трудно их проверить. Задача проверки предсказаний становится еще сложнее, когда модели предлагают новые научные теории или прогнозы будущих технологических достижений, которые невозможно немедленно проверить. В таких случаях важно полагаться на строгие методы оценки, которые могут подтвердить внутреннюю согласованность предсказаний и их соответствие существующему корпусу знаний, даже если окончательное эмпирическое подтверждение пока недоступно. • Self-reported

49.3%

Математика

Математические задачи и вычисления

MATH

o3-mini high AI: 1/10/24 Решает несколько математических задач со средней школы до первого курса колледжа. Это хорошо отражено во внутренних механизмах модели: она рассматривает вопрос с формальной точки зрения, моделирует способы решения и следует им. Не справляется с некоторыми более сложными задачами, требующими глубокого понимания. Сильные стороны: - Твердо оперирует алгебраическими методами - Хорошо формализует задачи в уравнения - Умеет выполнять алгебраические преобразования - Знает тригонометрические тождества - Знает основы вероятности и статистики Ограничения: - Совершает ошибки в сложных многошаговых выводах, особенно в геометрии - Может допускать вычислительные ошибки - Не обладает глубоким пониманием комбинаторики - Иногда пытается использовать неподходящие алгоритмы для решения задач Модель решает математические задачи HS/early-колледж на уровне компетентного, но не исключительного ученика. Она хорошо справляется с задачами, требующими следования известным алгоритмам, но борется с теми, что требуют более глубокого понимания или творческого мышления. • Self-reported

97.9%

MGSM

Размер модели: o3-mini Температура: высокая (0,7) Описание: o3-mini с высокой температурой (0,7) — это конфигурация, повышающая творческие способности и разнообразие выходных данных модели o3-mini. Установка высокой температуры позволяет модели исследовать более широкий спектр возможных ответов, что может быть полезно для творческих задач или генерации разнообразных идей. Однако это может привести к снижению предсказуемости и точности ответов по сравнению с настройками более низкой температуры. • Self-reported

92.0%

Рассуждения

Логические рассуждения и анализ

GPQA

DIAMOND (DIsentangled AMortized ONline Detective) - это фреймворк, разработанный для оптимизации обнаружения и изоляции сбоев при работе с графами вычислений. В отличие от многих современных подходов, DIAMOND особенно эффективен в условиях зашумленных наблюдений и может обрабатывать очень большие графы вычислений без потери производительности. Ключевые особенности: 1. Амортизированное обучение: DIAMOND использует глубокие нейронные сети для обобщения паттернов сбоев, что позволяет ему быстро идентифицировать проблемы в ранее невиденных графах. 2. Онлайн-анализ: фреймворк способен обрабатывать потоковые данные и адаптироваться к изменяющимся условиям в реальном времени. 3. Диагностика причинно-следственных связей: DIAMOND разделяет причины и следствия сбоев, позволяя точно определить первичный источник проблемы. 4. Масштабируемость: метод успешно работает с графами, содержащими миллионы узлов и рёбер, сохраняя при этом высокую точность. Эксперименты показывают, что DIAMOND превосходит существующие методы обнаружения сбоев на 17-23% по метрике F1 и работает в 30-100 раз быстрее при анализе крупномасштабных систем. Фреймворк был успешно протестирован на различных инфраструктурах машинного обучения и распределенных системах, демонстрируя высокую эффективность в реальных сценариях использования. • Self-reported

77.2%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

оценка на бенчмарке • Self-reported

66.7%

Aider-Polyglot Edit

оценка по бенчмарку • Self-reported

60.4%

AIME 2024

оценка на тестовом наборе • Self-reported

87.3%

COLLIE

оценка по бенчмарку • Self-reported

98.7%

ComplexFuncBench

оценка на бенчмарке • Self-reported

17.6%

FrontierMath

pass @ 1 • Self-reported

9.2%

Graphwalks BFS <128k

результат бенчмарка • Self-reported

51.0%

Graphwalks parents <128k

оценка бенчмарка • Self-reported

58.3%

IFEval

оценка на бенчмарке • Self-reported

93.9%

Internal API instruction following (hard)

Оценка эффективности • Self-reported

50.0%

LiveBench

o3-mini high Минималистичная модель типа GPT, обученная отвечать на вопросы об окружающем мире. Хорошо работает с общими знаниями. Предоставляет справочную информацию без опоры на специальные инструменты. Производительность Преимущества: Точные и краткие ответы, полезные для быстрых справочных запросов. Отличная справочная система. Ограничения: Отсутствие инструментов и ограниченные возможности для решения сложных задач, где требуются вычисления. Подсказки Предоставляет прямые ответы на вопросы о мире, истории, науке и культуре. Пример запроса: "Сколько жителей в Токио?" Подходит для • Быстрого получения фактов и данных • Общих знаний и справочных запросов • Образовательных целей • Self-reported

84.6%

MultiChallenge

показатель эффективности • Self-reported

39.9%

MultiChallenge (o3-mini grader)

показатель эффективности в тестах • Self-reported

50.2%

Multi-IF

оценка по бенчмарку • Self-reported

79.5%

Multilingual MMLU

оценка бенчмарка • Self-reported

80.7%

OpenAI-MRCR: 2 needle 128k

оценка в бенчмарке • Self-reported

18.7%

SimpleQA

точность • Self-reported

15.0%

SWE-Lancer

процентный показатель • Self-reported

18.0%

SWE-Lancer (IC-Diamond subset)

процентный показатель • Self-reported

7.4%

TAU-bench Airline

оценка на бенчмарке • Self-reported

32.4%

TAU-bench Retail

оценка на бенчмарке • Self-reported

57.6%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

30 января 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

o3-mini

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-3.5 Turbo

GPT-5 Codex

o1-preview

GPT-4 Turbo

o1-mini

o1

GPT-4.1 mini

Claude 3.5 Haiku