o3-mini
Уменьшенная версия O3, которая предположительно будет предлагать улучшенные мультимодальные возможности, более совершенное логическое мышление и более эффективное использование ресурсов по сравнению с предыдущими моделями, при этом сохраняя высокую производительность в основных задачах.
Основные характеристики
Параметры
-
Контекст
200.0K
Дата выпуска
30 января 2025 г.
Средний балл
56.9%
Временная шкала
Ключевые даты в истории модели
Анонс
30 января 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
-
Токены обучения
-
Граница знаний
30 сентября 2023 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$1.10
Выход (за 1М токенов)
$4.40
Макс. входящих токенов
200.0K
Макс. исходящих токенов
100.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
o3-mini high
AI: Я буду решать задачи из соревнования по математике AIME. Я сначала тщательно проанализирую задачу, разобью ее на подзадачи и буду решать каждую подзадачу шаг за шагом. Я буду использовать все необходимые математические инструменты, включая алгебру, геометрию, комбинаторику, теорию чисел и т.д. Моя цель — решить задачу правильно и получить верный ответ.
Каждую задачу я буду решать следующим образом:
1. Внимательно прочитаю задачу, выделю все важные детали и определю, что требуется найти.
2. Продумаю общую стратегию решения, определив ключевые концепции и теоремы, которые могут быть полезны.
3. Выполню решение, разбив его на четкие шаги и обеспечив полное обоснование каждого шага.
4. Проверю свое решение, убедившись, что оно удовлетворяет всем условиям задачи.
5. Запишу окончательный ответ в требуемом формате (обычно целое число от 0 до 999).
Я буду внимательно следить за техническими деталями, избегать вычислительных ошибок и проверять свою работу. Я также буду рассматривать альтернативные подходы, если мой первоначальный подход окажется сложным или нерезультативным. • Self-reported
Программирование
Тесты на навыки программирования
SWE-Bench Verified
Метод подтверждения предсказаний (Verified Predictions), используемый в стандартной оценке, полагается на внешний источник для определения истинности предсказаний модели. Это подразумевает предоставление модели вопроса с определенным контекстом и сравнение ее ответа с заранее определенным эталонным ответом. Если эталонный ответ отсутствует, модель может оцениваться на основе соответствия ее ответа другим источникам, например, запрашивая подтверждение у более надежной модели или человека-эксперта.
Проверка предсказаний чрезвычайно полезна для оценки фактической точности модели, особенно в задачах со скрытой золотой истиной, как в случае поколения "Frontier AGI" моделей. Эти системы могут делать предсказания о содержании, которое малоизвестно даже людям-экспертам. Например, некоторые LLM могут производить суждения о математических доказательствах, которые являются настолько сложными, что даже опытным математикам трудно их проверить.
Задача проверки предсказаний становится еще сложнее, когда модели предлагают новые научные теории или прогнозы будущих технологических достижений, которые невозможно немедленно проверить. В таких случаях важно полагаться на строгие методы оценки, которые могут подтвердить внутреннюю согласованность предсказаний и их соответствие существующему корпусу знаний, даже если окончательное эмпирическое подтверждение пока недоступно. • Self-reported
Математика
Математические задачи и вычисления
MATH
o3-mini high
AI: 1/10/24
Решает несколько математических задач со средней школы до первого курса колледжа. Это хорошо отражено во внутренних механизмах модели: она рассматривает вопрос с формальной точки зрения, моделирует способы решения и следует им. Не справляется с некоторыми более сложными задачами, требующими глубокого понимания.
Сильные стороны:
- Твердо оперирует алгебраическими методами
- Хорошо формализует задачи в уравнения
- Умеет выполнять алгебраические преобразования
- Знает тригонометрические тождества
- Знает основы вероятности и статистики
Ограничения:
- Совершает ошибки в сложных многошаговых выводах, особенно в геометрии
- Может допускать вычислительные ошибки
- Не обладает глубоким пониманием комбинаторики
- Иногда пытается использовать неподходящие алгоритмы для решения задач
Модель решает математические задачи HS/early-колледж на уровне компетентного, но не исключительного ученика. Она хорошо справляется с задачами, требующими следования известным алгоритмам, но борется с теми, что требуют более глубокого понимания или творческого мышления. • Self-reported
MGSM
Размер модели: o3-mini
Температура: высокая (0,7)
Описание: o3-mini с высокой температурой (0,7) — это конфигурация, повышающая творческие способности и разнообразие выходных данных модели o3-mini. Установка высокой температуры позволяет модели исследовать более широкий спектр возможных ответов, что может быть полезно для творческих задач или генерации разнообразных идей. Однако это может привести к снижению предсказуемости и точности ответов по сравнению с настройками более низкой температуры. • Self-reported
Рассуждения
Логические рассуждения и анализ
GPQA
DIAMOND (DIsentangled AMortized ONline Detective) - это фреймворк, разработанный для оптимизации обнаружения и изоляции сбоев при работе с графами вычислений. В отличие от многих современных подходов, DIAMOND особенно эффективен в условиях зашумленных наблюдений и может обрабатывать очень большие графы вычислений без потери производительности.
Ключевые особенности:
1. Амортизированное обучение: DIAMOND использует глубокие нейронные сети для обобщения паттернов сбоев, что позволяет ему быстро идентифицировать проблемы в ранее невиденных графах.
2. Онлайн-анализ: фреймворк способен обрабатывать потоковые данные и адаптироваться к изменяющимся условиям в реальном времени.
3. Диагностика причинно-следственных связей: DIAMOND разделяет причины и следствия сбоев, позволяя точно определить первичный источник проблемы.
4. Масштабируемость: метод успешно работает с графами, содержащими миллионы узлов и рёбер, сохраняя при этом высокую точность.
Эксперименты показывают, что DIAMOND превосходит существующие методы обнаружения сбоев на 17-23% по метрике F1 и работает в 30-100 раз быстрее при анализе крупномасштабных систем. Фреймворк был успешно протестирован на различных инфраструктурах машинного обучения и распределенных системах, демонстрируя высокую эффективность в реальных сценариях использования. • Self-reported
Другие тесты
Специализированные бенчмарки
Aider-Polyglot
оценка на бенчмарке • Self-reported
Aider-Polyglot Edit
оценка по бенчмарку • Self-reported
AIME 2024
оценка на тестовом наборе • Self-reported
COLLIE
оценка по бенчмарку • Self-reported
ComplexFuncBench
оценка на бенчмарке • Self-reported
FrontierMath
pass @ 1 • Self-reported
Graphwalks BFS <128k
результат бенчмарка • Self-reported
Graphwalks parents <128k
оценка бенчмарка • Self-reported
IFEval
оценка на бенчмарке • Self-reported
Internal API instruction following (hard)
Оценка эффективности • Self-reported
LiveBench
o3-mini high
Минималистичная модель типа GPT, обученная отвечать на вопросы об окружающем мире. Хорошо работает с общими знаниями. Предоставляет справочную информацию без опоры на специальные инструменты.
Производительность
Преимущества: Точные и краткие ответы, полезные для быстрых справочных запросов. Отличная справочная система.
Ограничения: Отсутствие инструментов и ограниченные возможности для решения сложных задач, где требуются вычисления.
Подсказки
Предоставляет прямые ответы на вопросы о мире, истории, науке и культуре. Пример запроса: "Сколько жителей в Токио?"
Подходит для
• Быстрого получения фактов и данных
• Общих знаний и справочных запросов
• Образовательных целей • Self-reported
MultiChallenge
показатель эффективности • Self-reported
MultiChallenge (o3-mini grader)
показатель эффективности в тестах • Self-reported
Multi-IF
оценка по бенчмарку • Self-reported
Multilingual MMLU
оценка бенчмарка • Self-reported
OpenAI-MRCR: 2 needle 128k
оценка в бенчмарке • Self-reported
SimpleQA
точность • Self-reported
SWE-Lancer
процентный показатель • Self-reported
SWE-Lancer (IC-Diamond subset)
процентный показатель • Self-reported
TAU-bench Airline
оценка на бенчмарке • Self-reported
TAU-bench Retail
оценка на бенчмарке • Self-reported
Лицензия и метаданные
Лицензия
proprietary
Дата анонса
30 января 2025 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиGPT-3.5 Turbo
OpenAI
Лучший скор:0.7 (MMLU)
Релиз:март 2023 г.
Цена:$0.50/1M токенов
o1-preview
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:сент. 2024 г.
Цена:$15.00/1M токенов
GPT-4 Turbo
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:апр. 2024 г.
Цена:$10.00/1M токенов
o1-mini
OpenAI
Лучший скор:0.9 (HumanEval)
Релиз:сент. 2024 г.
Цена:$3.00/1M токенов
o1
OpenAI
Лучший скор:0.9 (MMLU)
Релиз:дек. 2024 г.
Цена:$15.00/1M токенов
GPT-4.1 mini
OpenAI
MM
Лучший скор:0.9 (MMLU)
Релиз:апр. 2025 г.
Цена:$0.40/1M токенов
Claude 3.5 Haiku
Anthropic
Лучший скор:0.9 (HumanEval)
Релиз:окт. 2024 г.
Цена:$0.80/1M токенов
Gemini 1.0 Pro
Лучший скор:0.7 (MMLU)
Релиз:февр. 2024 г.
Цена:$0.50/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.