OpenAI logo

GPT OSS 120B

Мультимодальная
OpenAI

Модель gpt-oss-120b достигает практически равных результатов с OpenAI o4-mini на основных бенчмарках рассуждений, при этом эффективно работая на одном GPU с 80 ГБ памяти. Модель gpt-oss-20b показывает результаты, аналогичные OpenAI o3‑mini на распространенных бенчмарках, и может работать на периферийных устройствах с всего лишь 16 ГБ памяти, что делает её идеальной для локального использования на устройствах, локального вывода или быстрого итерирования без дорогостоящей инфраструктуры. Обе модели также демонстрируют высокую производительность при работе с инструментами, few-shot вызове функций, CoT рассуждениях (как видно из результатов на агентном наборе оценок Tau-Bench) и HealthBench (даже превосходя проприетарные модели, такие как OpenAI o1 и GPT‑4o).

Основные характеристики

Параметры
120.0B
Контекст
131.0K
Дата выпуска
5 августа 2025 г.
Средний балл
45.6%

Временная шкала

Ключевые даты в истории модели
Анонс / Последнее обновление
5 августа 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
120.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.15
Выход (за 1М токенов)
$0.60
Макс. входящих токенов
131.0K
Макс. исходящих токенов
30.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU benchmark
Без инструментовSelf-reported
90.0%

Рассуждения

Логические рассуждения и анализ
GPQA
Без инструментовSelf-reported
80.1%

Другие тесты

Специализированные бенчмарки
Codeforces Competition code
Elo (с инструментами) AI: Голосование за сравнение отличий в вопрос-ответах, чтобы получить рейтинг модели. Вкратце: Мы предложили людям вопросы из некоторого корпуса, затем отправили эти вопросы одновременно двум моделям ИИ, и оценщикам было предложено выбрать, какой ответ они предпочитают. Что мы использовали для оценки: Общие вопросы из GPQA. Подробности метода: Мы использовали сбалансированный методом ЕЛО подход для оценки относительной силы ИИ-моделей. Человеческие оценщики получали ответы от двух моделей на один и тот же вопрос и выбирали, какой ответ был лучше. Мы использовали пул из 1000 вопросов с GPQA. Мы предоставили моделям возможность использовать инструменты, в частности, калькулятор из набора GPT. Это стандартный калькулятор, интегрированный в GPT, вызываемый с помощью имени python_calculator. Мы нормализовали промпты для всех моделей, чтобы они были в однотипной форме. Мы отобрали для обращения к каждой модели только один промпт с наилучшими результатами. В результате мы получили рейтинги, основанные на полной матрице парных сравнений. Эти рейтинги были рассчитаны с использованием скорректированных вероятностей побед модели, с корректировкой рейтинга оценщика, как рекомендовано в предыдущих исследованиях.Self-reported
26.2%
Codeforces Competition code
Elo (без инструментов)Self-reported
24.6%
Humanity's Last Exam
Точность (с инструментами) AI: I'll solve this using algebraic calculations. First, let's identify the variables: - The radius of the sphere is r = 4 meters - The radius of the cone is r = 4 meters - The height of the cone is h = 4 meters For a sphere, the volume is V = (4/3)πr³ V_sphere = (4/3)π(4³) = (4/3)π(64) = (256/3)π cubic meters For a cone, the volume is V = (1/3)πr²h V_cone = (1/3)π(4²)(4) = (1/3)π(16)(4) = (64/3)π cubic meters The ratio of the volume of the sphere to the volume of the cone is: V_sphere / V_cone = ((256/3)π) / ((64/3)π) = 256/64 = 4 Therefore, the ratio of the volume of the sphere to the volume of the cone is 4:1.Self-reported
19.0%
Humanity's Last Exam
Точность (без инструментов)Self-reported
14.9%
HealthBench - Realistic health conversations
ScoreSelf-reported
57.6%
HealthBench Hard - Challenging health conversations
Score Оценка работы LLM в заданиях на многоходовые рассуждения как правило требует многих подзадач. Однако пользователю не всегда нужно детально изучать рассуждение модели, особенно когда оно занимает много страниц. Им достаточно итогового ответа, и они хотят знать, насколько он точен. Следовательно, достаточно важен следующий критерий оценки: финальный ответ должен быть чётким и однозначным (например, число или конкретное заключение), а не расплывчатым или неопределённым. Если ответ задан в баллах (например, оценка вероятности, выраженная в процентах), следует использовать правила оценки для задач прогнозирования, описанные в разделе "Прогноз". Оценки могут быть строгими или снисходительными, в зависимости от контекста. Строгая оценка даёт полный балл, только если ответ точно совпадает с эталонным решением. Снисходительная оценка может давать частичный кредит для ответов, которые указывают на правильное направление, но содержат незначительные ошибки, если модель демонстрирует понимание основной концепции. Строгая оценка подходит для объективных вопросов с единственным правильным ответом, тогда как снисходительная оценка может быть более уместна для задач, где важен процесс рассуждения или где возможны различные обоснованные подходы.Self-reported
30.0%
TAU-bench Retail benchmark
Function calling AI: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. Function callingSelf-reported
67.8%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
5 августа 2025 г.
Последнее обновление
5 августа 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.