GPT OSS 120B

Name: GPT OSS 120B
Rating: 0.5 (9 reviews)
Author: OpenAI

Мультимодальная

OpenAI

Модель gpt-oss-120b достигает практически равных результатов с OpenAI o4-mini на основных бенчмарках рассуждений, при этом эффективно работая на одном GPU с 80 ГБ памяти. Модель gpt-oss-20b показывает результаты, аналогичные OpenAI o3‑mini на распространенных бенчмарках, и может работать на периферийных устройствах с всего лишь 16 ГБ памяти, что делает её идеальной для локального использования на устройствах, локального вывода или быстрого итерирования без дорогостоящей инфраструктуры. Обе модели также демонстрируют высокую производительность при работе с инструментами, few-shot вызове функций, CoT рассуждениях (как видно из результатов на агентном наборе оценок Tau-Bench) и HealthBench (даже превосходя проприетарные модели, такие как OpenAI o1 и GPT‑4o).

Основные характеристики

Параметры

120.0B

Контекст

131.0K

Дата выпуска

5 августа 2025 г.

Средний балл

45.6%

Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс / Последнее обновление

5 августа 2025 г.

Сегодня

6 февраля 2026 г.

Технические характеристики

Параметры

120.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.15

Выход (за 1М токенов)

$0.60

Макс. входящих токенов

131.0K

Макс. исходящих токенов

30.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU benchmark

Без инструментов • Self-reported

90.0%

Рассуждения

Логические рассуждения и анализ

GPQA

Без инструментов • Self-reported

80.1%

Другие тесты

Специализированные бенчмарки

Codeforces Competition code

Elo (с инструментами) AI: Голосование за сравнение отличий в вопрос-ответах, чтобы получить рейтинг модели. Вкратце: Мы предложили людям вопросы из некоторого корпуса, затем отправили эти вопросы одновременно двум моделям ИИ, и оценщикам было предложено выбрать, какой ответ они предпочитают. Что мы использовали для оценки: Общие вопросы из GPQA. Подробности метода: Мы использовали сбалансированный методом ЕЛО подход для оценки относительной силы ИИ-моделей. Человеческие оценщики получали ответы от двух моделей на один и тот же вопрос и выбирали, какой ответ был лучше. Мы использовали пул из 1000 вопросов с GPQA. Мы предоставили моделям возможность использовать инструменты, в частности, калькулятор из набора GPT. Это стандартный калькулятор, интегрированный в GPT, вызываемый с помощью имени python_calculator. Мы нормализовали промпты для всех моделей, чтобы они были в однотипной форме. Мы отобрали для обращения к каждой модели только один промпт с наилучшими результатами. В результате мы получили рейтинги, основанные на полной матрице парных сравнений. Эти рейтинги были рассчитаны с использованием скорректированных вероятностей побед модели, с корректировкой рейтинга оценщика, как рекомендовано в предыдущих исследованиях. • Self-reported

26.2%

Codeforces Competition code

Elo (без инструментов) • Self-reported

24.6%

Humanity's Last Exam

Точность (с инструментами) AI: I'll solve this using algebraic calculations. First, let's identify the variables: - The radius of the sphere is r = 4 meters - The radius of the cone is r = 4 meters - The height of the cone is h = 4 meters For a sphere, the volume is V = (4/3)πr³ V_sphere = (4/3)π(4³) = (4/3)π(64) = (256/3)π cubic meters For a cone, the volume is V = (1/3)πr²h V_cone = (1/3)π(4²)(4) = (1/3)π(16)(4) = (64/3)π cubic meters The ratio of the volume of the sphere to the volume of the cone is: V_sphere / V_cone = ((256/3)π) / ((64/3)π) = 256/64 = 4 Therefore, the ratio of the volume of the sphere to the volume of the cone is 4:1. • Self-reported

19.0%

Humanity's Last Exam

Точность (без инструментов) • Self-reported

14.9%

HealthBench - Realistic health conversations

Score • Self-reported

57.6%

HealthBench Hard - Challenging health conversations

Score Оценка работы LLM в заданиях на многоходовые рассуждения как правило требует многих подзадач. Однако пользователю не всегда нужно детально изучать рассуждение модели, особенно когда оно занимает много страниц. Им достаточно итогового ответа, и они хотят знать, насколько он точен. Следовательно, достаточно важен следующий критерий оценки: финальный ответ должен быть чётким и однозначным (например, число или конкретное заключение), а не расплывчатым или неопределённым. Если ответ задан в баллах (например, оценка вероятности, выраженная в процентах), следует использовать правила оценки для задач прогнозирования, описанные в разделе "Прогноз". Оценки могут быть строгими или снисходительными, в зависимости от контекста. Строгая оценка даёт полный балл, только если ответ точно совпадает с эталонным решением. Снисходительная оценка может давать частичный кредит для ответов, которые указывают на правильное направление, но содержат незначительные ошибки, если модель демонстрирует понимание основной концепции. Строгая оценка подходит для объективных вопросов с единственным правильным ответом, тогда как снисходительная оценка может быть более уместна для задач, где важен процесс рассуждения или где возможны различные обоснованные подходы. • Self-reported

30.0%

TAU-bench Retail benchmark

Function calling AI: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. Function calling • Self-reported

67.8%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

5 августа 2025 г.

Последнее обновление

5 августа 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

GPT OSS 120B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

GPT-5 mini

GPT-5.1 High

GPT-5 Medium

GPT-5 High

GPT-5

GPT-4o

o1-pro

o3