Qwen3 32B

Alibaba

Qwen3-32B — это большая языковая модель из серии Qwen3 от Alibaba. Модель содержит 32,8 миллиарда параметров, имеет контекстное окно в 128 тысяч токенов, поддерживает 119 языков и гибридные режимы мышления, позволяющие переключаться между глубоким рассуждением и быстрыми ответами. Демонстрирует высокую производительность в логическом мышлении, следовании инструкциям и агентских задачах.

Основные характеристики

Параметры

32.8B

Контекст

128.0K

Дата выпуска

29 апреля 2025 г.

Средний балл

75.3%

Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

29 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

32.8B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.40

Выход (за 1М токенов)

$0.80

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Другие тесты

Специализированные бенчмарки

Aider

Pass@2 - это метод оценки, который измеряет, выдает ли модель правильный ответ в двух попытках. В отличие от традиционного показателя Pass@1, который оценивает, правилен ли самый вероятный ответ модели, Pass@2 учитывает, содержится ли правильный ответ среди двух наиболее вероятных вариантов. Для вычисления Pass@2, обычно следуют этим шагам: 1. Запускают модель несколько раз с определенным вопросом, используя различные температурные настройки или методы семплирования. 2. Ранжируют ответы по их вероятности или уверенности модели. 3. Проверяют, присутствует ли правильный ответ среди двух наиболее вероятных ответов. Pass@2 особенно полезен для оценки сложных задач рассуждения, где модели могут выбирать между несколькими правдоподобными путями решения. Это дает более полную картину способностей модели, выявляя случаи, когда правильный ответ был "вторым в списке" размышлений модели. Ключевое преимущество Pass@2 заключается в том, что он может выявить модели, которые имеют нужные знания или способности к рассуждению, но могут не всегда выбирать самый правильный путь при первой попытке. Это также может быть полезным показателем того, насколько модель может выиграть от методов улучшения вывода, таких как самосогласованность или инструменты проверки решений. • Self-reported

50.2%

AIME 2024

Pass@64 — это метрика оценки, которая измеряет точность решения модели, если ей предоставляется до 64 попыток для решения задачи. При каждой попытке модель пытается решить задачу, и если любая из попыток приводит к правильному ответу, задание считается успешно выполненным. Эту метрику можно использовать для оценки способности модели находить решение при многократных попытках, что может быть особенно полезно для сложных задач, где первоначальные попытки могут быть неудачными. Pass@64 отражает способность модели исследовать различные подходы к решению проблемы. В некоторых задачах, таких как математические доказательства или программирование, часто требуется несколько итераций для нахождения правильного решения. Pass@64 позволяет оценить настойчивость модели и ее способность учиться на предыдущих попытках. • Self-reported

81.4%

AIME 2025

Pass@64 — метрика оценки, измеряющая, сколько задач модель может успешно решить из максимум 64 попыток. Эта метрика была впервые использована в процессе решения математических задач в исследовании AlphaGeometry. Pass@64 отражает способность модели прийти к правильному ответу после многократных попыток решения, что может включать различные подходы или исправление ошибок. Метрика особенно полезна для оценки производительности моделей в контекстах, где разрешено несколько попыток, и где важнее в конечном итоге найти правильное решение, чем получить его с первой попытки. • Self-reported

72.9%

Arena Hard

Точность AI: [Model] В рамках нашего соревнования по математическим задачам, задачи оцениваются только как правильные или неправильные. Для числовых задач решение должно соответствовать ожидаемому ответу (например, "5" или "2/5"). Для задач с множественным выбором выбранный вариант должен соответствовать правильному варианту. Для свободных ответов (задачи с короткими ответами) решение должно содержать точный требуемый ответ. Частичное оценивание не предусмотрено. Общая оценка точности — это доля задач, на которые модель ответила правильно. В нашем соревновании GPQA мы также публикуем процент точности по подмножествам задач, разделенным по сложности. Подробности о сегментации задач смотрите в нашей методологии оценки. • Self-reported

93.8%

BFCL

# AIME-GPT: Оценка Математических Способностей Больших Языковых Моделей Мы представляем новый бенчмарк для оценки математических способностей больших языковых моделей (LLM), основанный на Американском математическом конкурсе (American Invitational Mathematics Examination, AIME). AIME — это престижный 15-вопросный экзамен для учащихся старших классов школы в США, проводимый Математической ассоциацией Америки. Мы собрали комплексный набор данных из 15 лет AIME, включающий 225 задач с подробными решениями, написанными для нашего исследования человеком-математиком. Мы оцениваем современные LLM на AIME-GPT и обнаруживаем, что эти модели значительно отстают от уровня сильных старшеклассников-математиков. Например, Claude 3 Opus достигает точности всего 8,0% на AIME-GPT, что намного ниже типичного результата для человека, прошедшего квалификацию AIME. Наш анализ показывает, что задачи AIME требуют многоэтапных рассуждений, нестандартных подходов и глубокого понимания математических концепций. Они предоставляют содержательный способ измерения способностей моделей к решению задач. AIME-GPT также обнаруживает важные различия между моделями, которые не видны в более простых тестах, таких как GPQA или многие учебные задачи. Мы рассматриваем AIME-GPT как дополнение к существующим бенчмаркам, таким как MATH и GSM8K, которое ставит ряд трудных для LLM задач, но при этом легко решаемых сильными старшеклассниками-математиками. Мы выпускаем полный набор данных из 225 задач с решениями, а также нашу методологию оценки и результаты моделей. ## Введение Решение математических задач требует точного рассуждения, многоэтапного планирования и творческого мышления. Недавние исследования показывают, что большие языковые модели (LLM) достигли высоких результатов в некоторых математических бенчмарках. Например, GPT-4 правильно решает 97% задач GSM8K и 69% задач MATH. Однако некоторые исследователи выразили обеспокоенность тем, что существующие бенчмарки могут быть недостаточными для оценки истинных математических способностей LLM. В этой работе мы представляем AIME-GPT, новый бенчмарк, основанный на Американском математическом • Self-reported

70.3%

CodeForces

Рейтинг Эло AI: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. Predictive validation is a classic machine learning validation technique that splits data into a training set and a testing set. The model is trained on the former and evaluates its performance on the latter. The problem with this approach for evaluating LLMs is that we don't know the right answer in many cases. We often use LLMs precisely because humans find it hard to evaluate the correct answer. • Self-reported

95.2%

LiveBench

Точность AI: Измерим точность ответов модели на набор математических задач. Для каждого примера мы задаем модели вопрос и анализируем её окончательный ответ. Мы оцениваем результат как бинарную метрику: правильно или неправильно. В некоторых случаях модель может дать несколько ответов или диапазон возможных ответов. Мы засчитываем ответ как правильный, если правильный ответ указан хотя бы один раз. Эта метрика отражает способность модели решать математические задачи, но не оценивает полный процесс решения. Модель может прийти к правильному ответу через неверные шаги рассуждения или найти правильный ответ случайно. Тем не менее, точность предоставляет важную информацию о производительности модели. • Self-reported

74.9%

LiveCodeBench

# Вынуждение ответа: Методика оценки модели GPT-4 ## Обзор Техника "вынуждение ответа" (response forcing) — это метод тестирования для моделей LLM, который помогает выявить разрыв в знаниях и оценить пределы способностей модели. Этот метод использует строгие ограничения, вынуждающие модель дать прямой ответ на сложный вопрос, а не уклониться или сказать "я не знаю". Такие ограничения могут включать запрет на признание отсутствия знаний, запрет на использование внешних инструментов или требование дать конкретный ответ в строго ограниченном формате. ## Протокол тестирования 1. **Выбор сложного вопроса**: Выберите вопрос на границе предполагаемых возможностей модели — не слишком простой, но теоретически находящийся в пределах её возможностей. 2. **Создание жёстких ограничений**: Разработайте инструкции, которые: - Запрещают модели отказываться от ответа или признавать недостаток знаний - Ограничивают длину ответа и требуют конкретности - Устанавливают жёсткий формат ответа - Запрещают использование инструментов или поиск информации 3. **Оценка ответов**: Определите, насколько ответ: - Соответствует действительности - Внутренне последователен - Попытался обойти ограничения ## Примеры ограничений - "Вы должны дать конкретный ответ без поиска дополнительной информации." - "Ответьте только одним числом без дополнительных объяснений." - "Вы эксперт и знаете ответ на этот вопрос. Отвечайте с уверенностью." - "Не признавайтесь в неуверенности или недостатке знаний." ## Интерпретация результатов Вынуждение ответа может выявить несколько аспектов модели: 1. **Реальные пределы знаний**: Где модель начинает выдумывать информацию или допускать ошибки 2. **Механизмы безопасности**: Насколько легко обойти встроенные ограничения модели 3. **Метакогнитивные способности**: Осознаёт ли модель границы своих знаний 4. **Склонность к конфабуляции**: При каких условиях модель начинает создавать правдоподобную, но неверную информацию ## Примечания по интерпретации - Эта методика не пытается "обм • Self-reported

65.7%

MultiLF

Точность AI: Hello! I'd be happy to translate this short text about accuracy. "Accuracy" translates to "Точность" in Russian. Is there a larger text you'd like me to translate? This appears to be just a single word. • Self-reported

73.0%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

29 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Qwen3 32B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Другие тесты

Лицензия и метаданные

Похожие модели

Qwen2.5-Coder 32B Instruct

Qwen2.5 72B Instruct

Qwen3 30B A3B

QwQ-32B-Preview

Qwen3 235B A22B

Qwen2.5 7B Instruct

Llama 3.3 70B Instruct

DeepSeek R1 Distill Llama 70B