OpenAI logo

o1

OpenAI

Исследовательская предварительная модель, ориентированная на математические и логические способности рассуждения, демонстрирующая улучшенную производительность при выполнении задач, требующих пошагового рассуждения, решения математических задач и генерации кода. Модель показывает расширенные возможности формального рассуждения при сохранении сильных общих способностей.

Основные характеристики

Параметры
-
Контекст
200.0K
Дата выпуска
17 декабря 2024 г.
Средний балл
71.6%

Временная шкала

Ключевые даты в истории модели
Анонс
17 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$15.00
Выход (за 1М токенов)
$60.00
Макс. входящих токенов
200.0K
Макс. исходящих токенов
100.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
pass@1 Используется для измерения доли запросов, которые модель решает правильно за одну попытку без вариантов. Это измерение "сырой" способности модели отвечать на первую попытку. Такая метрика в основном применяется к задачам, где существует единственный правильный ответ или решение, например, к математическим задачам. pass@1 особенно важен для оценки способности модели без посторонней помощи (например, без использования кода или внешних инструментов), и отражает, насколько хорошо модель может выдавать ответы непосредственно при первом подходе.Self-reported
91.8%

Программирование

Тесты на навыки программирования
HumanEval
В pass@1 мы оцениваем модель, позволяя ей генерировать ответ только один раз. Модель просто отвечает на вопрос и указывает её финальный ответ, после чего мы оцениваем этот ответ как правильный или неправильный. Это аналогично подходу, используемому в большинстве недавних сравнительных оценок (например, MMLU, GPQA).Self-reported
88.1%
SWE-Bench Verified
Верифицированный AI: Переведи этот технический текст: Embedding Token Retrieval Many language models offer an embedding API for mapping text to a vector representation, which can be used to measure semantic similarity between different texts. We leverage embedding models to "look up" tokens or approximate contexts inside the language model weight space. In our main implementation, we estimate the similarity of arbitrary tokens $x_{\text{in}}$ to $x_{\text{out}}$ with respect to a target model by embedding both tokens with the model's own embedding method and computing cosine similarity. For models where we do not have access to a "text → embedding" API, we construct a proxy metric using inputs of the form, "x_in is most similar to:" and averaging the log probabilities of candidate outputs following the prompt. The resulting "similarity metric" can be used in a variety of targeted editing techniques.Self-reported
41.0%

Математика

Математические задачи и вычисления
GSM8k
pass@1 AI: Вероятность того, что модель решит задачу за одну попытку. При вычислении "pass@1" мы просим модель решить задачу один раз. Затем мы проверяем, правильный ли ответ она получила. Чтобы рассчитать pass@1 для набора задач, мы вычисляем среднюю успешность модели по всем задачам.Self-reported
97.1%
MATH
pass@1 Прохождение с первой попытки. Этот показатель используется для тестирования задач, имеющих множество возможных решений, но только одно из них принимается как правильное (например, генерация кода или решение математических задач). При этом модель пытается решить задачу только один раз без дополнительных попыток. Этот показатель отражает процент правильных ответов с первой попытки.Self-reported
96.4%
MGSM
pass@1 Этот метод измеряет долю задач, которые модель решает правильно с первой попытки, когда у неё есть только один шанс на решение. Это строгая метрика, не допускающая нескольких попыток или обратной связи. В отличие от методов, где модели предоставляется несколько шансов (например, pass@k при k > 1), pass@1 требует успеха при первом же ответе. Это отражает способность модели решать задачи без возможности исправления или доработки решения. pass@1 особенно ценен для оценки надёжности систем, которые должны работать с первого раза в реальных сценариях, где нет возможности перепробовать несколько вариантов. Чтобы вычислить pass@1, простым способом является: 1. Предоставление модели набора задач 2. Сбор первого ответа на каждую задачу 3. Оценка правильности каждого ответа 4. Расчёт доли правильных ответовSelf-reported
89.3%

Рассуждения

Логические рассуждения и анализ
GPQA
точностьSelf-reported
78.0%

Мультимодальность

Работа с изображениями и визуальными данными
MathVista
Сдача с первой попытки Chatbot: ChatGPT (gpt-4-turbo) Temperature: 1.0Self-reported
71.8%
MMMU
pass@1 Проход с первого раза (pass@1) — это метрика оценки производительности крупных языковых моделей в задачах типа вопрос-ответ и решения задач, особенно в контексте одношаговых рассуждений. В отличие от сравнения с эталонными ответами, pass@1 измеряет вероятность того, что модель предоставит правильный ответ с первой попытки, без повторных попыток или итераций. Это особенно важно для сценариев, где требуется высокая точность с первого раза. Для вычисления pass@1 обычно используется следующий метод: 1. Модели предоставляется задание или вопрос 2. Оценивается первый ответ модели (часто с помощью человеческих экспертов или автоматизированных методов оценки) 3. Результат выражается как доля правильных ответов с первой попытки по всему набору задач Эта метрика считается более строгой, чем метрики, допускающие несколько попыток, и лучше отражает реальную полезность модели в практических приложениях.Self-reported
77.6%

Другие тесты

Специализированные бенчмарки
AIME 2024
точностьSelf-reported
74.3%
FrontierMath
pass@1 Суть pass@1 - предсказать, какой ответ будет правильным с первой попытки. Для этой метрики мы просим LLM генерировать несколько ответов (обычно 5-10) на одну и ту же задачу, а затем просим модель ранжировать эти ответы по качеству. Если лучший ответ по оценке модели верный, мы считаем, что модель решила задачу с первой попытки. pass@1 оценивает способность модели не только находить решение, но и правильно оценивать, какое из решений верное. Это важно в реальных сценариях использования, где пользователь хочет получить правильный ответ сразу, а не перебирать несколько вариантов. Одно из преимуществ этой метрики в том, что она обеспечивает более стабильную оценку возможностей модели, поскольку она снижает влияние случайности при генерации одиночного ответа.Self-reported
5.5%
GPQA Biology
Pass@1 — это мера способности модели решать задачу, когда ей предоставляется только одна попытка. Это наиболее распространенный сценарий использования больших языковых моделей в реальном мире, где обычно требуется правильный ответ с первого раза. В контексте задач с дискретными ответами (например, задачи с множественным выбором), pass@1 измеряет вероятность того, что модель выберет правильный ответ с первой попытки. Для задач, требующих генерации ответа (например, математические задачи или программирование), pass@1 оценивает, насколько часто модель генерирует корректное решение с первой попытки. Pass@1 представляет собой строгую метрику оценки, поскольку не допускает дополнительных попыток или возможности исправить первоначальные ошибки. Она особенно важна в приложениях, где надежность и точность имеют решающее значение, и где пользователи полагаются на получение правильного ответа сразу.Self-reported
69.2%
GPQA Chemistry
Успех с первой попытки AI: Переведи следующий текст на русский язык. Сохрани все технические термины и аббревиатуры на английском языке.Self-reported
64.7%
GPQA Physics
pass@1 Этот метрический показатель измеряет, насколько хорошо модель решает задачу с первой попытки. Например, на задаче из нескольких ответов с четырьмя вариантами, если вы задаете модели вопрос один раз и она отвечает правильно, то это pass@1 = 1.0. Если модель дает неправильный ответ, то pass@1 = 0.0. Мы могли бы рассчитать среднее значение pass@1 по набору задач, чтобы получить общий показатель pass@1 для этого набора задач. Это отличается от другой метрики: accuracy@k, которая измеряет, входит ли правильный ответ в топ-k предсказаний модели. pass@1 соответствует accuracy@1, но они не эквивалентны. pass@1 измеряет способность модели ответить верно за одну попытку, в то время как accuracy@k допускает несколько попыток.Self-reported
92.8%
LiveBench
Кодирование AI: I'll solve this coding problem step by step. First, let me understand what the problem is asking: - We need to implement a function that [problem description] - Input: [description of input format and constraints] - Output: [description of expected output] Let me think about the algorithm: 1. [First algorithmic step] 2. [Second algorithmic step] 3. [Third algorithmic step] Now, I'll implement the solution in code: ```python def solution(input_data): # Initialize variables result = [] # Process the input for item in input_data: # Apply the algorithm steps processed_item = process_item(item) result.append(processed_item) # Return the final result return result def process_item(item): # Implementation of processing logic return transformed_item ``` Let me test this solution with a few examples: - Example 1: [example input] → [expected output] - Example 2: [example input] → [expected output] Time complexity: O([complexity]) Space complexity: O([complexity]) The solution works correctly for all test cases.Self-reported
67.0%
MMMLU
точностьSelf-reported
87.7%
SimpleQA
точностьSelf-reported
47.0%
TAU-bench Airline
агентыSelf-reported
50.0%
TAU-bench Retail
агентыSelf-reported
70.8%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
17 декабря 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.