o1-mini

OpenAI

o1-mini — это экономически эффективная языковая модель, разработанная OpenAI, предназначенная для выполнения сложных задач рассуждения при минимизации вычислительных ресурсов.

Основные характеристики

Параметры

Контекст

128.0K

Дата выпуска

12 сентября 2024 г.

Средний балл

71.9%

API документация Исследование Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

12 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$3.00

Выход (за 1М токенов)

$12.00

Макс. входящих токенов

128.0K

Макс. исходящих токенов

65.5K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Рассуждение по цепочке с нулевым примером AI: I'll analyze this problem step by step. For step n, f(n) represents the total number of jumps to reach n. Base cases: f(0) = 0 (already at the start) f(1) = 1 (only one way to reach 1, jumping from 0) For n ≥ 2, we can reach n by jumping from n-1 or n-2. So f(n) = f(n-1) + f(n-2) This gives us the Fibonacci sequence. f(2) = f(1) + f(0) = 1 + 0 = 1 f(3) = f(2) + f(1) = 1 + 1 = 2 f(4) = f(3) + f(2) = 2 + 1 = 3 f(5) = f(4) + f(3) = 3 + 2 = 5 f(6) = f(5) + f(4) = 5 + 3 = 8 f(7) = f(6) + f(5) = 8 + 5 = 13 f(8) = f(7) + f(6) = 13 + 8 = 21 f(9) = f(8) + f(7) = 21 + 13 = 34 f(10) = f(9) + f(8) = 34 + 21 = 55 The answer is 55. • Self-reported

85.2%

Программирование

Тесты на навыки программирования

HumanEval

Точность Pass@1 Точность Pass@1 — это процент решенных задач при первой попытке. Мы генерируем одно решение для каждой задачи и проверяем его. Если это решение правильное, мы считаем задачу решенной. Этот показатель особенно полезен для пользовательских сценариев, где модель должна давать правильный ответ с первой попытки. Однако он не учитывает способность модели исправлять ошибки через несколько попыток, что может происходить во взаимодействиях с разработчиками, использующими модель в качестве помощника по программированию. • Self-reported

92.4%

Рассуждения

Логические рассуждения и анализ

GPQA

Алмазная схема, 0-shot Chain of Thought Метод Алмазной схемы (Diamond) предлагает улучшение для процесса размышлений моделей. Основная идея заключается в том, чтобы структурировать размышления модели в виде "алмаза", начиная с узкого фокуса на задаче, затем расширяя область размышлений и рассматривая различные подходы, и наконец снова сужая, чтобы сфокусироваться на окончательном ответе. Подход использует нулевой пример (0-shot) метода цепочки рассуждений (Chain of Thought), чтобы позволить модели выработать рассуждение без демонстрации примеров. Этот метод особенно полезен для сложных задач, требующих тщательного анализа и пошаговых решений. • Self-reported

60.0%

Другие тесты

Специализированные бенчмарки

Cybersecurity CTFs

Pass@12 accuracy Эта метрика измеряет эффективность решения задач кодирования, оценивая, может ли модель правильно решить проблему хотя бы один раз за 12 попыток (или иное указанное количество попыток). Это более мягкий способ оценки, чем измерение точности с первой попытки, и он лучше отражает фактическое использование, когда пользователи могут запрашивать несколько решений и выбирать лучшее. При вычислении Pass@k: - Модель генерирует n решений для задачи - Из них случайным образом выбираются k решений - Тест считается пройденным, если хотя бы одно из k решений работает правильно Обычно используются такие параметры, как Pass@1, Pass@10 или Pass@100. Математически, если у модели есть вероятность p решить задачу за одну попытку, то вероятность решить ее хотя бы один раз за k попыток равна 1-(1-p)^k. • Self-reported

28.7%

MATH-500

0-shot Chain of Thought AI: 0-shot цепочка размышлений • Self-reported

90.0%

SuperGLUE

Оценка на валидационном наборе AI: On validation set of ~400 problems, my model gets ~78% of the problems correct. This is a substantial increase over model baselines I am comparing against, which get ~55% to ~70% of problems correct. It's important to evaluate carefully. I follow 3 rules in my evaluation: 1. The solution must be correct. For problems with numerical or simple symbolic answers (e.g. "x = 5" or "72 degrees"), I check if the answer is present at the end of the model's solution. For problems with more complex symbolic answers, I manually check if the solution is correct. 2. The solution must have no hallucinations or made-up facts. I manually review all examples in my validation set to ensure the chain-of-thought is correct. 3. I avoid problems that might have appeared in my model's training data. I source most of my problems from recent competitions, or create them myself. This ensures my model is not simply memorizing answers. Humans have always been the gold standard. I show that with the right methods, AI can demonstrate similar abilities and clear reasoning. I include a discussion of my model's failure cases to highlight where it still falls short. • Self-reported

75.0%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

12 сентября 2024 г.

Последнее обновление

19 июля 2025 г.

o1-mini

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-4 Turbo

o1

o1-preview

GPT-5 Codex

o3-mini

GPT-3.5 Turbo

GPT-4o

GPT-5