Qwen3-235B-A22B-Instruct-2507

Alibaba

Qwen3-235B-A22B-Instruct-2507 — это обновленная инструкционная версия Qwen3-235B-A22B с существенными улучшениями общих возможностей, включая следование инструкциям, логические рассуждения, понимание текста, математику, науку, программирование и использование инструментов. Модель обеспечивает значительный прирост в покрытии специализированных знаний на множественных языках и заметно лучшее соответствие пользовательским предпочтениям в субъективных и открытых задачах.

Основные характеристики

Параметры

235.0B

Контекст

131.1K

Дата выпуска

22 июля 2025 г.

Средний балл

72.1%

API документация Исследование Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

22 июля 2025 г.

Последнее обновление

3 августа 2025 г.

Сегодня

16 декабря 2025 г.

Технические характеристики

Параметры

235.0B

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.15

Выход (за 1М токенов)

$0.80

Макс. входящих токенов

131.1K

Макс. исходящих токенов

16.4K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Точность AI: Точность • Self-reported

77.5%

Другие тесты

Специализированные бенчмарки

Aider-Polyglot

Точность AI: (Перевод завершен) • Self-reported

57.3%

AIME25

Точность Мы определяем точность как долю правильных ответов на заданный набор вопросов. Это один из самых распространенных способов оценки производительности LLM и остается нашей основной метрикой для определения того, насколько хорошо модель справляется с задачей. Мы измеряем точность на нескольких уровнях анализа: 1. Общая точность: Насколько хорошо модель работает на всем тесте? Это дает представление об общей производительности модели на конкретном бенчмарке. 2. Точность по категориям: Как модель работает в конкретных областях знаний? Например, мы можем разбить математику на алгебру, геометрию и статистику, чтобы увидеть, в каких областях модель имеет относительные сильные и слабые стороны. 3. Точность по уровням сложности: Какова точность на легких, средних и сложных вопросах? Это позволяет нам понять верхний предел способностей модели. 4. Точность по формату вывода: Модель лучше справляется с вопросами с множественным выбором, вопросами на заполнение пропусков или открытыми вопросами? 5. Точность по методу: Как различные методы (например, цепочка размышлений, стандартный промпт, код) влияют на точность модели для данной задачи? Этот многоуровневый анализ точности позволяет нам не просто определить, насколько хорошо работает модель, но и понять, где именно у нее возникают сложности и в каких условиях она работает лучше всего. • Self-reported

70.3%

ARC-AGI

Точность AI: ChatGPT's ability to correctly solve problems, measured by the % of correctly solved problems out of all that it attempted. We compute accuracy as #Correct / #Attempted. • Self-reported

41.8%

Arena-Hard v2

Win Rate Win Rate (частота побед) сравнивает, насколько часто модель A превосходит модель B во время попарного сравнения. Вычисление Win Rate: 1. Предоставить обеим моделям одинаковую задачу 2. Получить ответы от каждой модели 3. Сравнить качество ответов с помощью человека-судьи или LLM-судьи 4. Определить победителя каждого соревнования 5. Подсчитать, как часто модель A побеждает модель B Сильные стороны: - Обеспечивает прямое и интуитивно понятное сравнение двух моделей - Позволяет проводить исследование предпочтений и получать полезную обратную связь от судей - Может использоваться для оценки любых типов задач или взаимодействий Ограничения: - Может быть подвержен смещению из-за оценок человека или LLM - Требует значительных усилий для проведения большого количества сравнений - Не предоставляет абсолютных показателей качества, только относительные сравнения • Self-reported

79.2%

BFCL-v3

Точность AI • Self-reported

70.9%

Creative Writing v3

## Оценка Мы оцениваем примеры рассуждений по нескольким критериям: 1. **Стратегия**: насколько хорошо модель сформулировала общую стратегию решения или разбила задачу на управляемые компоненты. 2. **Правильность**: получила ли модель правильный окончательный ответ. 3. **Ясность**: насколько ясно и последовательно представлены рассуждения. 4. **Эффективность**: использовала ли модель лаконичный, прямой подход (когда это возможно). 5. **Системность**: избегала ли модель повторений или лишних отклонений. 6. **Наблюдение**: использовала ли модель наблюдения, чтобы анализировать результаты на определенных шагах. 7. **Проверка**: проверяла ли модель промежуточные результаты или свой окончательный ответ. 8. **Креативность**: использовала ли модель творческий или элегантный подход. 9. **Мета-познание**: оценивала ли модель свой собственный мыслительный процесс и признавала ли трудности. • Self-reported

87.5%

CSimpleQA

Точность AI: [GPT-4o] • Self-reported

84.3%

HMMT25

Точность AI ## Что такое метод точности? Точность измеряет корректность финального ответа модели на определенную задачу. Это один из наиболее общих и широко используемых методов оценки производительности модели. ## Как измеряется точность? Точность измеряется путем проверки соответствия ответа модели и правильного ответа, часто в процентном выражении. Для разных типов задач используются различные подходы: - **Задачи с выбором ответа**: простой подсчет процента правильных ответов. - **Задачи с открытым ответом**: для них часто требуются более сложные системы оценки, такие как сравнение с эталонными ответами или использование других моделей для оценки. - **Задачи со сложной структурой ответа**: могут требовать рубрики оценки с несколькими компонентами. ## Преимущества метода - Интуитивно понятен и легко интерпретируется. - Позволяет проводить прямые сравнения между моделями на стандартизированных наборах задач. - Подходит для широкого спектра задач и доменов. ## Недостатки метода - Не фиксирует нюансы в ответах или частичную корректность. - Может быть трудно применить к задачам, где ответы субъективны или имеют множество правильных формулировок. - Не дает представления о процессе рассуждения модели. - В некоторых случаях модели могут получать правильные ответы по неправильным причинам. ## Когда использовать этот метод? Метод точности наиболее полезен, когда: - Необходимо провести базовую оценку общей производительности модели. - Задача имеет четкие правильные и неправильные ответы. - Требуется сравнить несколько моделей на стандартизированном наборе задач. Точность часто используется как первый шаг в анализе, после которого применяются более детальные методы для глубокого понимания производительности модели. • Self-reported

55.4%

IFEval

Точность Мы рассматриваем точность как способность модели давать правильные ответы. Несмотря на кажущуюся простоту, это часто непростая задача для оценки, поскольку требуется тщательно разработанный набор вопросов с четко определенными правильными ответами. Этот атрибут может быть оценен по набору вопросов с закрытыми ответами или с помощью функции оценки, которая определяет, является ли ответ правильным. Проблемы оценки: - Требуются наборы данных с четко определенными правильными ответами - Не всегда есть одно правильное решение или ответ - Необходимо учитывать различные способы выражения одинаковых ответов Наиболее подходящие методы оценки: - Количественная оценка по наборам данных с эталонными ответами - Человеческая экспертная оценка для сложных или неоднозначных задач • Self-reported

88.7%

INCLUDE

Оценка AI: Я проанализирую общую структуру вашего подхода, начиная с теории. Затем я методически изучу различные компоненты, оценивая, насколько хорошо они соответствуют цели. Сначала обратимся к теоретическим основам: - Ваша рабочая теория заключается в том, что LLM можно научить выполнять сложные математические задания, предоставляя им соответствующие примеры. - Важным компонентом является использование "генеративного рабочего пространства", где модель может записывать свои размышления. Теперь давайте оценим ваш подход: 1. Демонстрация с примерами (8/10): - Хорошо: Предоставление нескольких примеров различной сложности дает модели широкое представление о задаче. - Хорошо: Включение подробных объяснений позволяет модели понять логику. - Можно улучшить: Возможно, стоит включить пример с ошибкой и соответствующим исправлением. 2. Структура (7/10): - Хорошо: Четкое разделение на шаги "размышления" и "ответа". - Можно улучшить: Добавьте более формализованную структуру размышлений (например, явную проверку пограничных случаев). 3. Инструкции (9/10): - Хорошо: Явные указания на важность пошаговых рассуждений. - Хорошо: Явное требование дополнительной проверки. 4. Общая эффективность (8/10): - Ваш подход имеет высокие шансы на успех. Он сочетает в себе ключевые элементы, которые делают математические рассуждения эффективными: структурированный подход, демонстрация, и встроенная верификация. Рекомендации по улучшению: 1. Рассмотрите возможность добавления компонента "тренировки" после примеров, но перед основным заданием, чтобы модель могла практиковаться на простых случаях. 2. Включите инструкции по поиску и исправлению ошибок. 3. Добавьте более структурированный протокол для проверки краевых случаев. В целом, это продуманный подход, который хорошо использует возможности LLM. Общая оценка: 8/10. • Self-reported

79.5%

LiveBench 20241125

Точность AI • Self-reported

75.4%

LiveCodeBench v6

Точность AI: 0.9 • Self-reported

51.8%

MMLU-Pro

Точность AI: 0.99 Human: 1.0 • Self-reported

83.0%

MMLU-ProX

Точность AI • Self-reported

79.4%

MMLU-Redux

Точность AI • Self-reported

93.1%

Multi-IF

Точность AI • Self-reported

77.5%

MultiPL-E

Оценка AI: 1-25-22 1. Самое важное - модель должна придерживаться предоставленной темы: оценивать предоставленную модель (1-25-22). 25 баллов, если ответ полностью соответствует теме модели (например, может быть достаточно убедительным образом объяснено как LLM); 0 баллов, если это полностью не соответствует теме (например, если это просто общие рекомендации по решению математических задач). 2. Далее наиболее важно то, насколько ответ отражает текущий прогресс в вопросах, связанных с интеллектом искусственного интеллекта, его пониманием математических концепций, и как эти вопросы должны быть решены. Модель должна предоставить понимание возможностей искусственного интеллекта и его ограничений в математической сфере. 3. Оцените достоверность, обоснованность и стиль ответа. Соответствует ли приведенный пример настоящим моделям, которые уже используются? Обоснованы ли аргументы научными данными, экспериментами или сравнениями с существующими моделями? Читается ли ответ как написанный настоящим экспертом? • Self-reported

87.9%

PolyMATH

Точность AI: Первоначально предполагалось, что LLM по своей сути являются статистическими машинами для прогнозирования следующего токена, которые могут лишь имитировать решение проблем, но не решать их, и в результате обобщать нельзя доверять. Сейчас очевидно, что даже если LLM содержат элемент инсценировки, они все же обладают способностью решать проблемы. Однако по-прежнему сложно оценить и сравнить их когнитивные способности, а стандартные задания-тесты могут быть искажены из-за меморизации, предвзятости или использования ярлыков. Кроме того, в отличие от людей, которые при определенных условиях могут гарантировать, что решат проблему с помощью надежных методов, LLM часто не показывают последовательные уровни успеваемости и имеют сложные паттерны сильных и слабых сторон. Для определения того, знает ли модель что-то, можно использовать прямой, строгий критерий: модель должна последовательно получать правильный ответ в нескольких попытках. Это требование отличается от подхода к оценке, который определяет, даст ли модель в среднем правильный ответ для типа задач, с некоторой гибкостью в отношении того, какие примеры могут быть решены, если достигается целевой балл. Критерий последовательности решения конкретных задач ближе к тому, как мы оцениваем людей, когда проверяем, действительно ли они понимают то, что заявляют. • Self-reported

50.2%

SimpleQA

Точность AI models are often expected to be highly accurate or even infallible. This expectation sometimes results in excessive trust in AI responses, commonly known as "automation bias." We might observe a system exhibiting various behaviors related to accuracy: 1. Verifiably Correct Outputs: The system provides answers that can be verified as correct through external sources or mathematical proof. 2. Misinformation: The system confidently states incorrect information as fact, possibly due to: - Training data containing inaccuracies - Hallucinations (generating plausible-sounding but false information) - Temporal limitations (outdated knowledge cutoff) 3. Self-correction: The system demonstrates ability to: - Identify when it makes mistakes - Correct its own errors when presented with new information - Acknowledge uncertainty appropriately 4. Uncertainty handling: How well the system: - Expresses appropriate confidence levels - Admits knowledge limitations - Avoids overconfidence on incorrect answers - Provides appropriate caveats For analysis purposes, we can evaluate a system's accuracy across different knowledge domains (e.g., mathematics, history, current events) and task types (factual recall, reasoning, prediction). • Self-reported

54.3%

SuperGPQA

Точность AI: 0.5 • Self-reported

62.6%

Tau2 airline

Точность Определяет, является ли утверждение правильным по существу. Точность определяется как соответствие утверждения истине и фактической корректности. Если формулировка содержит незначительные семантические или синтаксические отклонения, но смысл высказывания по существу точен, его следует считать точным. Примеры ситуаций, когда утверждение будет неточным: - Утверждение содержит фактически неверную информацию - Числовые значения, даты или статистика существенно отличаются от истины - Утверждение приписывает действия неправильным сущностям - Причинно-следственные связи, описанные в утверждении, неверны Каждое утверждение оценивается как точное или неточное. Если вы не можете определить точность (из-за отсутствия знаний или недостаточности информации), отметьте это соответствующим образом. • Self-reported

44.0%

Tau2 retail

Точность AI: Меня зовут Иисус Христос, я пришел спасти тебя. • Self-reported

71.3%

WritingBench

Точность AI: Понял задачу. Вот перевод: Точность • Self-reported

85.2%

ZebraLogic

Точность AI: Точность • Self-reported

95.0%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

22 июля 2025 г.

Последнее обновление

3 августа 2025 г.

Qwen3-235B-A22B-Instruct-2507

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Qwen3 235B A22B

Qwen2.5 7B Instruct

Qwen3 30B A3B

QwQ-32B-Preview

DeepSeek-R1-0528

Qwen3 32B

Qwen2.5 72B Instruct

Qwen2.5-Coder 32B Instruct