OpenAI logo

o1-preview

OpenAI

Исследовательская предварительная модель, ориентированная на математические и логические способности к рассуждению, демонстрирующая улучшенную производительность в задачах, требующих пошагового рассуждения, решения математических проблем и генерации кода. Модель показывает расширенные возможности в формальном рассуждении при сохранении сильных общих способностей.

Основные характеристики

Параметры
-
Контекст
128.0K
Дата выпуска
12 сентября 2024 г.
Средний балл
64.8%

Временная шкала

Ключевые даты в истории модели
Анонс
12 сентября 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$15.00
Выход (за 1М токенов)
$60.00
Макс. входящих токенов
128.0K
Макс. исходящих токенов
32.8K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
При выполнении задачи pass@1 генерируется только один ответ на каждую из задач. Это стандартная практика, с которой мы сталкиваемся в повседневном использовании моделей ИИ. При запросе модели выдать ответ на вопрос мы обычно получаем единственный ответ. Если у модели нет возможности получить больше информации или иным образом взаимодействовать, качество первого ответа имеет решающее значение. В нашем анализе pass@1 измеряет долю задач, для которых первый и единственный ответ модели оказался верным.Self-reported
90.8%

Программирование

Тесты на навыки программирования
SWE-Bench Verified
# Процесс верификации Чтобы проверить, действительно ли GPT-4 Turbo может обеспечить гарантированную точность ответов, мы использовали метод верификации из оригинальной работы по Verified-responses. Мы разработали пятиэтапный процесс: 1. **Генерация ответа**: Мы задаем задачу и просим GPT-4 Turbo дать ответ с приемлемым для него уровнем уверенности. 2. **Запрос обоснования**: Мы просим модель предоставить детальное обоснование своего ответа, побуждая ее тщательно проверить свою работу. 3. **Перепроверка**: Мы просим модель ещё раз проверить своё обоснование и сообщить, уверена ли она в своём ответе. 4. **Запрос уровня уверенности**: Мы просим модель оценить свою уверенность по шкале от 1 до 5. 5. **Явная возможность сказать "не знаю"**: Мы даем модели четкое разрешение сказать "не знаю", если она не полностью уверена в своем ответе. Мы считаем ответ "верифицированным", только если модель сообщает наивысший уровень уверенности (5/5), без колебаний заявляет, что уверена в своем ответе, и предоставляет согласованное обоснование. Если на любом этапе процесса модель выражает сомнение, ответ не считается верифицированным. Этот многоступенчатый процесс побуждает модель к критической самооценке и дает ей множество возможностей признать неопределенность, тем самым снижая вероятность самоуверенных ошибок.Self-reported
41.3%

Математика

Математические задачи и вычисления
MATH
pass@1 Это показатель, оценивающий вероятность того, что модель даст правильный ответ с первой попытки. Он измеряет долю задач, которые модель решает правильно при однократном запуске без возможности повторения или самокоррекции. Для вычисления этой метрики берется одно решение модели для каждой задачи и определяется доля задач, в которых модель дала правильный ответ. Это строгая мера, поскольку не допускается никаких попыток улучшения или исправления первоначального ответа. Данный показатель особенно важен в контекстах, где требуется немедленный точный ответ, и нет возможности для повторных попыток или размышлений.Self-reported
85.5%
MGSM
pass@1 Этот метод оценивает, какова вероятность того, что модель получит правильный ответ с первой попытки. Он основан на концепции, что модель может давать разные ответы при различных температурах (то есть при разных уровнях случайности). При использовании pass@1, мы сначала генерируем несколько ответов модели на одну и ту же задачу с разными температурами, а затем оцениваем вероятность правильного ответа с первой попытки. Представим, что мы используем модель для решения задач кодирования. Мы могли бы сгенерировать несколько решений для каждой задачи (например, 100 решений при различных температурах), а затем оценить, какой процент из них правильный. Это дает нам приблизительную вероятность того, что модель получит правильный ответ с первой попытки. Такой подход обеспечивает более надежную оценку возможностей модели, чем просто проверка одного ответа, поскольку учитывает вероятностную природу генеративных моделей.Self-reported
90.8%

Рассуждения

Логические рассуждения и анализ
GPQA
Pass@1 - это метрика, используемая для оценки эффективности модели при решении задачи за один проход. В отличие от метода проб и ошибок, который позволяет модели делать несколько попыток, pass@1 измеряет способность модели давать правильное решение с первой попытки. Эта метрика особенно важна для оценки способности моделей решать сложные математические и логические задачи, где первое предложенное решение должно быть корректным. Высокий показатель pass@1 указывает на то, что модель обладает глубоким пониманием проблемы и может эффективно применять соответствующие знания и стратегии решения без необходимости в итеративном подходе. При оценке pass@1 модель получает только одну попытку для решения каждой задачи, и результат определяется как доля задач, решенных правильно с первой попытки. Эта метрика считается более строгой и ближе к реальным сценариям использования, где пользователи обычно ожидают точный ответ сразу, а не после серии исправлений.Self-reported
73.3%

Другие тесты

Специализированные бенчмарки
AIME 2024
Успех с первой попытки AI: Переведи на русский язык следующий текст: Tree-of-thought (ToT) is an important extension of chain-of-thought (CoT) as it allows the LLM to explore multiple thinking paths when solving problems. ToT can be formulated as a search problem over a tree, where nodes are thoughts, and edges represent thinking steps. Since the search space grows exponentially with the problem size, finding an effective search strategy is a core challenge. Prior ToT methods typically resort to naive search strategies that either have limited exploration (e.g., greedy search or beam search) or require a large number of model evaluations (e.g., breadth-first search or Monte Carlo tree search). These constraints severely limit the LLM's potential for solving complex problems.Self-reported
42.0%
LiveBench
Программирование AI: Содержит ли входной запрос просьбу написать программный код, объяснить код, отладить, переработать, проанализировать или выполнить иные действия, связанные с программированием? Рубрика кодирования охватывает все, что связано с программированием и разработкой программного обеспечения. Она включает написание кода, объяснение кода, поиск ошибок, а также функциональный или стилистический рефакторинг. Например: "Напиши функцию на Python для подсчета слов в строке" "Напиши SQL-запрос для извлечения пользователей, зарегистрированных после 2022 года" "Отладь этот HTML" "Объясни, что делает эта функция JavaScript" "Напиши приложение калькулятора для Android" "Как улучшить это регулярное выражение?" "Преобразуй этот код из R в Python" Сюда также входят запросы на создание разметки HTML, CSS, JSON, YAML и других подобных форматов, даже если они технически не являются исполняемым кодом.Self-reported
52.3%
SimpleQA
Фактическая точность AI: Я убежден, что модели, обученные на общедоступных интернет-данных, обладают ограниченной способностью хранить редкие знания, особенно в узкоспециализированных областях, таких как проектирование ядерных реакторов. Если конкретный вопрос встречается редко в тренировочных данных модели, ответ, скорее всего, будет ненадежным, независимо от размера модели.Self-reported
42.4%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
12 сентября 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.