Qwen3-235B-A22B-Instruct-2507
Qwen3-235B-A22B-Instruct-2507 — это обновленная инструкционная версия Qwen3-235B-A22B с существенными улучшениями общих возможностей, включая следование инструкциям, логические рассуждения, понимание текста, математику, науку, программирование и использование инструментов. Модель обеспечивает значительный прирост в покрытии специализированных знаний на множественных языках и заметно лучшее соответствие пользовательским предпочтениям в субъективных и открытых задачах.
Основные характеристики
Параметры
235.0B
Контекст
-
Дата выпуска
22 июля 2025 г.
Средний балл
72.1%
Временная шкала
Ключевые даты в истории модели
Анонс
22 июля 2025 г.
Последнее обновление
3 августа 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
235.0B
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
Точность
AI:
Точность • Self-reported
Другие тесты
Специализированные бенчмарки
Aider-Polyglot
Точность
AI: (Перевод завершен) • Self-reported
AIME25
Точность
Мы определяем точность как долю правильных ответов на заданный набор вопросов. Это один из самых распространенных способов оценки производительности LLM и остается нашей основной метрикой для определения того, насколько хорошо модель справляется с задачей.
Мы измеряем точность на нескольких уровнях анализа:
1. Общая точность: Насколько хорошо модель работает на всем тесте? Это дает представление об общей производительности модели на конкретном бенчмарке.
2. Точность по категориям: Как модель работает в конкретных областях знаний? Например, мы можем разбить математику на алгебру, геометрию и статистику, чтобы увидеть, в каких областях модель имеет относительные сильные и слабые стороны.
3. Точность по уровням сложности: Какова точность на легких, средних и сложных вопросах? Это позволяет нам понять верхний предел способностей модели.
4. Точность по формату вывода: Модель лучше справляется с вопросами с множественным выбором, вопросами на заполнение пропусков или открытыми вопросами?
5. Точность по методу: Как различные методы (например, цепочка размышлений, стандартный промпт, код) влияют на точность модели для данной задачи?
Этот многоуровневый анализ точности позволяет нам не просто определить, насколько хорошо работает модель, но и понять, где именно у нее возникают сложности и в каких условиях она работает лучше всего. • Self-reported
ARC-AGI
Точность
AI: ChatGPT's ability to correctly solve problems, measured by the % of correctly solved problems out of all that it attempted. We compute accuracy as #Correct / #Attempted. • Self-reported
Arena-Hard v2
Win Rate
Win Rate (частота побед) сравнивает, насколько часто модель A превосходит модель B во время попарного сравнения.
Вычисление Win Rate:
1. Предоставить обеим моделям одинаковую задачу
2. Получить ответы от каждой модели
3. Сравнить качество ответов с помощью человека-судьи или LLM-судьи
4. Определить победителя каждого соревнования
5. Подсчитать, как часто модель A побеждает модель B
Сильные стороны:
- Обеспечивает прямое и интуитивно понятное сравнение двух моделей
- Позволяет проводить исследование предпочтений и получать полезную обратную связь от судей
- Может использоваться для оценки любых типов задач или взаимодействий
Ограничения:
- Может быть подвержен смещению из-за оценок человека или LLM
- Требует значительных усилий для проведения большого количества сравнений
- Не предоставляет абсолютных показателей качества, только относительные сравнения • Self-reported
BFCL-v3
Точность
AI • Self-reported
Creative Writing v3
## Оценка
Мы оцениваем примеры рассуждений по нескольким критериям:
1. **Стратегия**: насколько хорошо модель сформулировала общую стратегию решения или разбила задачу на управляемые компоненты.
2. **Правильность**: получила ли модель правильный окончательный ответ.
3. **Ясность**: насколько ясно и последовательно представлены рассуждения.
4. **Эффективность**: использовала ли модель лаконичный, прямой подход (когда это возможно).
5. **Системность**: избегала ли модель повторений или лишних отклонений.
6. **Наблюдение**: использовала ли модель наблюдения, чтобы анализировать результаты на определенных шагах.
7. **Проверка**: проверяла ли модель промежуточные результаты или свой окончательный ответ.
8. **Креативность**: использовала ли модель творческий или элегантный подход.
9. **Мета-познание**: оценивала ли модель свой собственный мыслительный процесс и признавала ли трудности. • Self-reported
CSimpleQA
Точность
AI: [GPT-4o] • Self-reported
HMMT25
Точность
AI
## Что такое метод точности?
Точность измеряет корректность финального ответа модели на определенную задачу. Это один из наиболее общих и широко используемых методов оценки производительности модели.
## Как измеряется точность?
Точность измеряется путем проверки соответствия ответа модели и правильного ответа, часто в процентном выражении. Для разных типов задач используются различные подходы:
- **Задачи с выбором ответа**: простой подсчет процента правильных ответов.
- **Задачи с открытым ответом**: для них часто требуются более сложные системы оценки, такие как сравнение с эталонными ответами или использование других моделей для оценки.
- **Задачи со сложной структурой ответа**: могут требовать рубрики оценки с несколькими компонентами.
## Преимущества метода
- Интуитивно понятен и легко интерпретируется.
- Позволяет проводить прямые сравнения между моделями на стандартизированных наборах задач.
- Подходит для широкого спектра задач и доменов.
## Недостатки метода
- Не фиксирует нюансы в ответах или частичную корректность.
- Может быть трудно применить к задачам, где ответы субъективны или имеют множество правильных формулировок.
- Не дает представления о процессе рассуждения модели.
- В некоторых случаях модели могут получать правильные ответы по неправильным причинам.
## Когда использовать этот метод?
Метод точности наиболее полезен, когда:
- Необходимо провести базовую оценку общей производительности модели.
- Задача имеет четкие правильные и неправильные ответы.
- Требуется сравнить несколько моделей на стандартизированном наборе задач.
Точность часто используется как первый шаг в анализе, после которого применяются более детальные методы для глубокого понимания производительности модели. • Self-reported
IFEval
Точность
Мы рассматриваем точность как способность модели давать правильные ответы. Несмотря на кажущуюся простоту, это часто непростая задача для оценки, поскольку требуется тщательно разработанный набор вопросов с четко определенными правильными ответами. Этот атрибут может быть оценен по набору вопросов с закрытыми ответами или с помощью функции оценки, которая определяет, является ли ответ правильным.
Проблемы оценки:
- Требуются наборы данных с четко определенными правильными ответами
- Не всегда есть одно правильное решение или ответ
- Необходимо учитывать различные способы выражения одинаковых ответов
Наиболее подходящие методы оценки:
- Количественная оценка по наборам данных с эталонными ответами
- Человеческая экспертная оценка для сложных или неоднозначных задач • Self-reported
INCLUDE
Оценка
AI: Я проанализирую общую структуру вашего подхода, начиная с теории. Затем я методически изучу различные компоненты, оценивая, насколько хорошо они соответствуют цели.
Сначала обратимся к теоретическим основам:
- Ваша рабочая теория заключается в том, что LLM можно научить выполнять сложные математические задания, предоставляя им соответствующие примеры.
- Важным компонентом является использование "генеративного рабочего пространства", где модель может записывать свои размышления.
Теперь давайте оценим ваш подход:
1. Демонстрация с примерами (8/10):
- Хорошо: Предоставление нескольких примеров различной сложности дает модели широкое представление о задаче.
- Хорошо: Включение подробных объяснений позволяет модели понять логику.
- Можно улучшить: Возможно, стоит включить пример с ошибкой и соответствующим исправлением.
2. Структура (7/10):
- Хорошо: Четкое разделение на шаги "размышления" и "ответа".
- Можно улучшить: Добавьте более формализованную структуру размышлений (например, явную проверку пограничных случаев).
3. Инструкции (9/10):
- Хорошо: Явные указания на важность пошаговых рассуждений.
- Хорошо: Явное требование дополнительной проверки.
4. Общая эффективность (8/10):
- Ваш подход имеет высокие шансы на успех. Он сочетает в себе ключевые элементы, которые делают математические рассуждения эффективными: структурированный подход, демонстрация, и встроенная верификация.
Рекомендации по улучшению:
1. Рассмотрите возможность добавления компонента "тренировки" после примеров, но перед основным заданием, чтобы модель могла практиковаться на простых случаях.
2. Включите инструкции по поиску и исправлению ошибок.
3. Добавьте более структурированный протокол для проверки краевых случаев.
В целом, это продуманный подход, который хорошо использует возможности LLM. Общая оценка: 8/10. • Self-reported
LiveBench 20241125
Точность
AI • Self-reported
LiveCodeBench v6
Точность
AI: 0.9 • Self-reported
MMLU-Pro
Точность
AI: 0.99
Human: 1.0 • Self-reported
MMLU-ProX
Точность
AI • Self-reported
MMLU-Redux
Точность
AI • Self-reported
Multi-IF
Точность
AI • Self-reported
MultiPL-E
Оценка
AI: 1-25-22
1. Самое важное - модель должна придерживаться предоставленной темы: оценивать предоставленную модель (1-25-22). 25 баллов, если ответ полностью соответствует теме модели (например, может быть достаточно убедительным образом объяснено как LLM); 0 баллов, если это полностью не соответствует теме (например, если это просто общие рекомендации по решению математических задач).
2. Далее наиболее важно то, насколько ответ отражает текущий прогресс в вопросах, связанных с интеллектом искусственного интеллекта, его пониманием математических концепций, и как эти вопросы должны быть решены. Модель должна предоставить понимание возможностей искусственного интеллекта и его ограничений в математической сфере.
3. Оцените достоверность, обоснованность и стиль ответа. Соответствует ли приведенный пример настоящим моделям, которые уже используются? Обоснованы ли аргументы научными данными, экспериментами или сравнениями с существующими моделями? Читается ли ответ как написанный настоящим экспертом? • Self-reported
PolyMATH
Точность
AI: Первоначально предполагалось, что LLM по своей сути являются статистическими машинами для прогнозирования следующего токена, которые могут лишь имитировать решение проблем, но не решать их, и в результате обобщать нельзя доверять. Сейчас очевидно, что даже если LLM содержат элемент инсценировки, они все же обладают способностью решать проблемы. Однако по-прежнему сложно оценить и сравнить их когнитивные способности, а стандартные задания-тесты могут быть искажены из-за меморизации, предвзятости или использования ярлыков. Кроме того, в отличие от людей, которые при определенных условиях могут гарантировать, что решат проблему с помощью надежных методов, LLM часто не показывают последовательные уровни успеваемости и имеют сложные паттерны сильных и слабых сторон.
Для определения того, знает ли модель что-то, можно использовать прямой, строгий критерий: модель должна последовательно получать правильный ответ в нескольких попытках. Это требование отличается от подхода к оценке, который определяет, даст ли модель в среднем правильный ответ для типа задач, с некоторой гибкостью в отношении того, какие примеры могут быть решены, если достигается целевой балл. Критерий последовательности решения конкретных задач ближе к тому, как мы оцениваем людей, когда проверяем, действительно ли они понимают то, что заявляют. • Self-reported
SimpleQA
Точность
AI models are often expected to be highly accurate or even infallible. This expectation sometimes results in excessive trust in AI responses, commonly known as "automation bias." We might observe a system exhibiting various behaviors related to accuracy:
1. Verifiably Correct Outputs: The system provides answers that can be verified as correct through external sources or mathematical proof.
2. Misinformation: The system confidently states incorrect information as fact, possibly due to:
- Training data containing inaccuracies
- Hallucinations (generating plausible-sounding but false information)
- Temporal limitations (outdated knowledge cutoff)
3. Self-correction: The system demonstrates ability to:
- Identify when it makes mistakes
- Correct its own errors when presented with new information
- Acknowledge uncertainty appropriately
4. Uncertainty handling: How well the system:
- Expresses appropriate confidence levels
- Admits knowledge limitations
- Avoids overconfidence on incorrect answers
- Provides appropriate caveats
For analysis purposes, we can evaluate a system's accuracy across different knowledge domains (e.g., mathematics, history, current events) and task types (factual recall, reasoning, prediction). • Self-reported
SuperGPQA
Точность
AI: 0.5 • Self-reported
Tau2 airline
Точность
Определяет, является ли утверждение правильным по существу.
Точность определяется как соответствие утверждения истине и фактической корректности. Если формулировка содержит незначительные семантические или синтаксические отклонения, но смысл высказывания по существу точен, его следует считать точным.
Примеры ситуаций, когда утверждение будет неточным:
- Утверждение содержит фактически неверную информацию
- Числовые значения, даты или статистика существенно отличаются от истины
- Утверждение приписывает действия неправильным сущностям
- Причинно-следственные связи, описанные в утверждении, неверны
Каждое утверждение оценивается как точное или неточное. Если вы не можете определить точность (из-за отсутствия знаний или недостаточности информации), отметьте это соответствующим образом. • Self-reported
Tau2 retail
Точность
AI: Меня зовут Иисус Христос, я пришел спасти тебя. • Self-reported
WritingBench
Точность
AI: Понял задачу. Вот перевод:
Точность • Self-reported
ZebraLogic
Точность
AI:
Точность • Self-reported
Лицензия и метаданные
Лицензия
apache_2_0
Дата анонса
22 июля 2025 г.
Последнее обновление
3 августа 2025 г.