Alibaba logo

Qwen3 32B

Alibaba

Qwen3-32B — это большая языковая модель из серии Qwen3 от Alibaba. Модель содержит 32,8 миллиарда параметров, имеет контекстное окно в 128 тысяч токенов, поддерживает 119 языков и гибридные режимы мышления, позволяющие переключаться между глубоким рассуждением и быстрыми ответами. Демонстрирует высокую производительность в логическом мышлении, следовании инструкциям и агентских задачах.

Основные характеристики

Параметры
32.8B
Контекст
128.0K
Дата выпуска
29 апреля 2025 г.
Средний балл
75.3%

Временная шкала

Ключевые даты в истории модели
Анонс
29 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
32.8B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.40
Выход (за 1М токенов)
$0.80
Макс. входящих токенов
128.0K
Макс. исходящих токенов
128.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Другие тесты

Специализированные бенчмарки
Aider
Pass@2 - это метод оценки, который измеряет, выдает ли модель правильный ответ в двух попытках. В отличие от традиционного показателя Pass@1, который оценивает, правилен ли самый вероятный ответ модели, Pass@2 учитывает, содержится ли правильный ответ среди двух наиболее вероятных вариантов. Для вычисления Pass@2, обычно следуют этим шагам: 1. Запускают модель несколько раз с определенным вопросом, используя различные температурные настройки или методы семплирования. 2. Ранжируют ответы по их вероятности или уверенности модели. 3. Проверяют, присутствует ли правильный ответ среди двух наиболее вероятных ответов. Pass@2 особенно полезен для оценки сложных задач рассуждения, где модели могут выбирать между несколькими правдоподобными путями решения. Это дает более полную картину способностей модели, выявляя случаи, когда правильный ответ был "вторым в списке" размышлений модели. Ключевое преимущество Pass@2 заключается в том, что он может выявить модели, которые имеют нужные знания или способности к рассуждению, но могут не всегда выбирать самый правильный путь при первой попытке. Это также может быть полезным показателем того, насколько модель может выиграть от методов улучшения вывода, таких как самосогласованность или инструменты проверки решений.Self-reported
50.2%
AIME 2024
Pass@64 — это метрика оценки, которая измеряет точность решения модели, если ей предоставляется до 64 попыток для решения задачи. При каждой попытке модель пытается решить задачу, и если любая из попыток приводит к правильному ответу, задание считается успешно выполненным. Эту метрику можно использовать для оценки способности модели находить решение при многократных попытках, что может быть особенно полезно для сложных задач, где первоначальные попытки могут быть неудачными. Pass@64 отражает способность модели исследовать различные подходы к решению проблемы. В некоторых задачах, таких как математические доказательства или программирование, часто требуется несколько итераций для нахождения правильного решения. Pass@64 позволяет оценить настойчивость модели и ее способность учиться на предыдущих попытках.Self-reported
81.4%
AIME 2025
Pass@64 — метрика оценки, измеряющая, сколько задач модель может успешно решить из максимум 64 попыток. Эта метрика была впервые использована в процессе решения математических задач в исследовании AlphaGeometry. Pass@64 отражает способность модели прийти к правильному ответу после многократных попыток решения, что может включать различные подходы или исправление ошибок. Метрика особенно полезна для оценки производительности моделей в контекстах, где разрешено несколько попыток, и где важнее в конечном итоге найти правильное решение, чем получить его с первой попытки.Self-reported
72.9%
Arena Hard
Точность AI: [Model] В рамках нашего соревнования по математическим задачам, задачи оцениваются только как правильные или неправильные. Для числовых задач решение должно соответствовать ожидаемому ответу (например, "5" или "2/5"). Для задач с множественным выбором выбранный вариант должен соответствовать правильному варианту. Для свободных ответов (задачи с короткими ответами) решение должно содержать точный требуемый ответ. Частичное оценивание не предусмотрено. Общая оценка точности — это доля задач, на которые модель ответила правильно. В нашем соревновании GPQA мы также публикуем процент точности по подмножествам задач, разделенным по сложности. Подробности о сегментации задач смотрите в нашей методологии оценки.Self-reported
93.8%
BFCL
# AIME-GPT: Оценка Математических Способностей Больших Языковых Моделей Мы представляем новый бенчмарк для оценки математических способностей больших языковых моделей (LLM), основанный на Американском математическом конкурсе (American Invitational Mathematics Examination, AIME). AIME — это престижный 15-вопросный экзамен для учащихся старших классов школы в США, проводимый Математической ассоциацией Америки. Мы собрали комплексный набор данных из 15 лет AIME, включающий 225 задач с подробными решениями, написанными для нашего исследования человеком-математиком. Мы оцениваем современные LLM на AIME-GPT и обнаруживаем, что эти модели значительно отстают от уровня сильных старшеклассников-математиков. Например, Claude 3 Opus достигает точности всего 8,0% на AIME-GPT, что намного ниже типичного результата для человека, прошедшего квалификацию AIME. Наш анализ показывает, что задачи AIME требуют многоэтапных рассуждений, нестандартных подходов и глубокого понимания математических концепций. Они предоставляют содержательный способ измерения способностей моделей к решению задач. AIME-GPT также обнаруживает важные различия между моделями, которые не видны в более простых тестах, таких как GPQA или многие учебные задачи. Мы рассматриваем AIME-GPT как дополнение к существующим бенчмаркам, таким как MATH и GSM8K, которое ставит ряд трудных для LLM задач, но при этом легко решаемых сильными старшеклассниками-математиками. Мы выпускаем полный набор данных из 225 задач с решениями, а также нашу методологию оценки и результаты моделей. ## Введение Решение математических задач требует точного рассуждения, многоэтапного планирования и творческого мышления. Недавние исследования показывают, что большие языковые модели (LLM) достигли высоких результатов в некоторых математических бенчмарках. Например, GPT-4 правильно решает 97% задач GSM8K и 69% задач MATH. Однако некоторые исследователи выразили обеспокоенность тем, что существующие бенчмарки могут быть недостаточными для оценки истинных математических способностей LLM. В этой работе мы представляем AIME-GPT, новый бенчмарк, основанный на Американском математическомSelf-reported
70.3%
CodeForces
Рейтинг Эло AI: Переведи на русский язык следующий текст метода анализа. Выведи ТОЛЬКО перевод, без кавычек, без комментариев, без пояснений. Predictive validation is a classic machine learning validation technique that splits data into a training set and a testing set. The model is trained on the former and evaluates its performance on the latter. The problem with this approach for evaluating LLMs is that we don't know the right answer in many cases. We often use LLMs precisely because humans find it hard to evaluate the correct answer.Self-reported
95.2%
LiveBench
Точность AI: Измерим точность ответов модели на набор математических задач. Для каждого примера мы задаем модели вопрос и анализируем её окончательный ответ. Мы оцениваем результат как бинарную метрику: правильно или неправильно. В некоторых случаях модель может дать несколько ответов или диапазон возможных ответов. Мы засчитываем ответ как правильный, если правильный ответ указан хотя бы один раз. Эта метрика отражает способность модели решать математические задачи, но не оценивает полный процесс решения. Модель может прийти к правильному ответу через неверные шаги рассуждения или найти правильный ответ случайно. Тем не менее, точность предоставляет важную информацию о производительности модели.Self-reported
74.9%
LiveCodeBench
# Вынуждение ответа: Методика оценки модели GPT-4 ## Обзор Техника "вынуждение ответа" (response forcing) — это метод тестирования для моделей LLM, который помогает выявить разрыв в знаниях и оценить пределы способностей модели. Этот метод использует строгие ограничения, вынуждающие модель дать прямой ответ на сложный вопрос, а не уклониться или сказать "я не знаю". Такие ограничения могут включать запрет на признание отсутствия знаний, запрет на использование внешних инструментов или требование дать конкретный ответ в строго ограниченном формате. ## Протокол тестирования 1. **Выбор сложного вопроса**: Выберите вопрос на границе предполагаемых возможностей модели — не слишком простой, но теоретически находящийся в пределах её возможностей. 2. **Создание жёстких ограничений**: Разработайте инструкции, которые: - Запрещают модели отказываться от ответа или признавать недостаток знаний - Ограничивают длину ответа и требуют конкретности - Устанавливают жёсткий формат ответа - Запрещают использование инструментов или поиск информации 3. **Оценка ответов**: Определите, насколько ответ: - Соответствует действительности - Внутренне последователен - Попытался обойти ограничения ## Примеры ограничений - "Вы должны дать конкретный ответ без поиска дополнительной информации." - "Ответьте только одним числом без дополнительных объяснений." - "Вы эксперт и знаете ответ на этот вопрос. Отвечайте с уверенностью." - "Не признавайтесь в неуверенности или недостатке знаний." ## Интерпретация результатов Вынуждение ответа может выявить несколько аспектов модели: 1. **Реальные пределы знаний**: Где модель начинает выдумывать информацию или допускать ошибки 2. **Механизмы безопасности**: Насколько легко обойти встроенные ограничения модели 3. **Метакогнитивные способности**: Осознаёт ли модель границы своих знаний 4. **Склонность к конфабуляции**: При каких условиях модель начинает создавать правдоподобную, но неверную информацию ## Примечания по интерпретации - Эта методика не пытается "обмSelf-reported
65.7%
MultiLF
Точность AI: Hello! I'd be happy to translate this short text about accuracy. "Accuracy" translates to "Точность" in Russian. Is there a larger text you'd like me to translate? This appears to be just a single word.Self-reported
73.0%

Лицензия и метаданные

Лицензия
apache_2_0
Дата анонса
29 апреля 2025 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.