OpenAI logo

o1-mini

OpenAI

o1-mini — это экономически эффективная языковая модель, разработанная OpenAI, предназначенная для выполнения сложных задач рассуждения при минимизации вычислительных ресурсов.

Основные характеристики

Параметры
-
Контекст
128.0K
Дата выпуска
12 сентября 2024 г.
Средний балл
71.9%

Временная шкала

Ключевые даты в истории модели
Анонс
12 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$3.00
Выход (за 1М токенов)
$12.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
65.5K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
Рассуждение по цепочке с нулевым примером AI: I'll analyze this problem step by step. For step n, f(n) represents the total number of jumps to reach n. Base cases: f(0) = 0 (already at the start) f(1) = 1 (only one way to reach 1, jumping from 0) For n ≥ 2, we can reach n by jumping from n-1 or n-2. So f(n) = f(n-1) + f(n-2) This gives us the Fibonacci sequence. f(2) = f(1) + f(0) = 1 + 0 = 1 f(3) = f(2) + f(1) = 1 + 1 = 2 f(4) = f(3) + f(2) = 2 + 1 = 3 f(5) = f(4) + f(3) = 3 + 2 = 5 f(6) = f(5) + f(4) = 5 + 3 = 8 f(7) = f(6) + f(5) = 8 + 5 = 13 f(8) = f(7) + f(6) = 13 + 8 = 21 f(9) = f(8) + f(7) = 21 + 13 = 34 f(10) = f(9) + f(8) = 34 + 21 = 55 The answer is 55.Self-reported
85.2%

Программирование

Тесты на навыки программирования
HumanEval
Точность Pass@1 Точность Pass@1 — это процент решенных задач при первой попытке. Мы генерируем одно решение для каждой задачи и проверяем его. Если это решение правильное, мы считаем задачу решенной. Этот показатель особенно полезен для пользовательских сценариев, где модель должна давать правильный ответ с первой попытки. Однако он не учитывает способность модели исправлять ошибки через несколько попыток, что может происходить во взаимодействиях с разработчиками, использующими модель в качестве помощника по программированию.Self-reported
92.4%

Рассуждения

Логические рассуждения и анализ
GPQA
Алмазная схема, 0-shot Chain of Thought Метод Алмазной схемы (Diamond) предлагает улучшение для процесса размышлений моделей. Основная идея заключается в том, чтобы структурировать размышления модели в виде "алмаза", начиная с узкого фокуса на задаче, затем расширяя область размышлений и рассматривая различные подходы, и наконец снова сужая, чтобы сфокусироваться на окончательном ответе. Подход использует нулевой пример (0-shot) метода цепочки рассуждений (Chain of Thought), чтобы позволить модели выработать рассуждение без демонстрации примеров. Этот метод особенно полезен для сложных задач, требующих тщательного анализа и пошаговых решений.Self-reported
60.0%

Другие тесты

Специализированные бенчмарки
Cybersecurity CTFs
Pass@12 accuracy Эта метрика измеряет эффективность решения задач кодирования, оценивая, может ли модель правильно решить проблему хотя бы один раз за 12 попыток (или иное указанное количество попыток). Это более мягкий способ оценки, чем измерение точности с первой попытки, и он лучше отражает фактическое использование, когда пользователи могут запрашивать несколько решений и выбирать лучшее. При вычислении Pass@k: - Модель генерирует n решений для задачи - Из них случайным образом выбираются k решений - Тест считается пройденным, если хотя бы одно из k решений работает правильно Обычно используются такие параметры, как Pass@1, Pass@10 или Pass@100. Математически, если у модели есть вероятность p решить задачу за одну попытку, то вероятность решить ее хотя бы один раз за k попыток равна 1-(1-p)^k.Self-reported
28.7%
MATH-500
0-shot Chain of Thought AI: 0-shot цепочка размышленийSelf-reported
90.0%
SuperGLUE
Оценка на валидационном наборе AI: On validation set of ~400 problems, my model gets ~78% of the problems correct. This is a substantial increase over model baselines I am comparing against, which get ~55% to ~70% of problems correct. It's important to evaluate carefully. I follow 3 rules in my evaluation: 1. The solution must be correct. For problems with numerical or simple symbolic answers (e.g. "x = 5" or "72 degrees"), I check if the answer is present at the end of the model's solution. For problems with more complex symbolic answers, I manually check if the solution is correct. 2. The solution must have no hallucinations or made-up facts. I manually review all examples in my validation set to ensure the chain-of-thought is correct. 3. I avoid problems that might have appeared in my model's training data. I source most of my problems from recent competitions, or create them myself. This ensures my model is not simply memorizing answers. Humans have always been the gold standard. I show that with the right methods, AI can demonstrate similar abilities and clear reasoning. I include a discussion of my model's failure cases to highlight where it still falls short.Self-reported
75.0%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
12 сентября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.