Qwen3 235B A22B

Alibaba

Qwen3 235B A22B — это большая языковая модель, разработанная Alibaba, использующая архитектуру Mixture-of-Experts (MoE) с 235 миллиардами общих параметров и 22 миллиардами активированных параметров. Она демонстрирует конкурентоспособные результаты в бенчмарк-оценках программирования, математики, общих возможностей и других областей по сравнению с другими передовыми моделями.

Основные характеристики

Параметры

235.0B

Контекст

128.0K

Дата выпуска

29 апреля 2025 г.

Средний балл

76.2%

API документация Репозиторий Веса модели

Временная шкала

Ключевые даты в истории модели

Анонс

29 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

235.0B

Токены обучения

36.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.20

Выход (за 1М токенов)

$0.60

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

Точность AI • Self-reported

87.8%

Программирование

Тесты на навыки программирования

MBPP

Точность Вычисляет проценты полностью верных ответов для заданного набора примеров. Под "полностью верным" подразумевается, что ответ оценивается как полностью правильный, а не частично правильный. Например, в математических задачах ответ 5 считается правильным, если правильный ответ — 5, но неправильным, если правильный ответ — 4. Для качественной оценки точности важны хорошие промпты, чтобы обеспечить воспроизводимые результаты. Например, в математических задачах структурированный промпт может потребовать от модели предоставить окончательный ответ в конкретном формате, чтобы упростить автоматизированную оценку. Отслеживание точности моделей важно, поскольку она является фундаментальной метрикой для сравнения моделей и оценки улучшений в их способностях. При тестировании моделей на различных задачах изменение точности может быть чувствительным показателем новых возможностей или ограничений. Например, если после значительных структурных изменений в модели наблюдается снижение точности на ранее легко решаемых задачах, это может указывать на возможную регрессию в определенных областях компетенции. • Self-reported

81.4%

Математика

Математические задачи и вычисления

GSM8k

Точность AI ## Что такое Arithmetic-Inspired Mechanistic Explanations (AIME)? Недавние исследования показали, что крупные языковые модели (LLM) могут решать простые арифметические задачи, используя внутренние механизмы, подобные алгоритмам, которым обучают детей в начальной школе. Например, при сложении чисел модели не просто запоминают ответы, а выполняют что-то похожее на пошаговое вычисление с переносом разрядов. Arithmetic-Inspired Mechanistic Explanations (AIME) — это попытка объяснить, как модели решают более сложные математические и логические задачи, исследуя их внутренние представления. Цель этого подхода — определить, используют ли модели что-то похожее на человеческие алгоритмы решения. AIME стремится: - Идентифицировать конкретные токены и активации, которые соответствуют промежуточным шагам в алгоритмах решения - Проверить, соответствуют ли эти активации шагам, которые использовал бы человек - Определить, действительно ли модель выполняет вычисления, а не просто запоминает ответы Метод может помочь нам лучше понять, как модели действительно обрабатывают задачи, и выявить ограничения в их способностях к рассуждению. • Self-reported

94.4%

MATH

Точность AI: Точность • Self-reported

71.8%

MGSM

Точность AI: To perform a comprehensive evaluation of an AI's mathematical capabilities, we need to assess its accuracy across a range of mathematical problems. For each benchmark, we'll compute overall accuracy (percentage of problems solved correctly) and per-category accuracy to identify strengths and weaknesses in different mathematical domains. When evaluating solutions, we must consider partial credit for answers that demonstrate correct reasoning but contain minor errors. This allows for a more nuanced evaluation of mathematical understanding rather than just binary right/wrong assessment. For complex multi-step problems, we should track where errors occur to diagnose whether failures happen early in problem-solving processes (understanding the problem statement) or later (computational errors, flawed reasoning). Finally, we need to compare accuracy against both human baselines (e.g., average high school students, IMO participants) and other AI systems to contextualize performance levels. • Self-reported

83.5%

Рассуждения

Логические рассуждения и анализ

GPQA

Точность AI: Bot scored 23 out of 50 points on the 2023 test, corresponding to a percentage of 46.0%. • Self-reported

47.5%

Другие тесты

Специализированные бенчмарки

Aider

Pass@2 (правильность при двух попытках) измеряет, решила ли модель задачу правильно по крайней мере в одной из двух попыток. Это интуитивный, но содержательный способ оценить, насколько модель близка к решению задачи, даже если она не всегда получает правильный ответ с первой попытки. Некоторые модели могут давать правильные ответы с высокой вероятностью, но не со 100%-ной надежностью. Pass@2 дает моделям "второй шанс", аналогично тому, как люди могут перепроверять свою работу. Тот факт, что нам нужно запустить модель только два раза, чтобы получить хорошую оценку того, может ли она решить задачу, делает Pass@2 эффективным с вычислительной точки зрения показателем, особенно для сложных задач с высокими затратами на вычисления. Pass@2 можно обобщить до Pass@k для любого k, позволяя исследователям настраивать количество попыток в зависимости от своих потребностей. • Self-reported

61.8%

AIME 2024

Pass@64 – метрика, оценивающая умение модели решать задачи при наличии определенного количества попыток, в отличие от метрики pass@1, которая дает модели только одну попытку. Например, если пользователь задает вопрос по математике, модель может испробовать несколько различных стратегий решения, а затем выбрать наиболее правдоподобный ответ. Метрика pass@64 отражает сценарий, когда модель имеет возможность генерировать до 64 различных решений задачи. Верхний предел в 64 попытки достаточно велик, чтобы охватить большинство сценариев практического использования. Данный подход учитывает, что иногда модель может быть недостаточно уверена в своих вычислениях или рассуждениях, но ей всё же нужно предоставить ответ. Используя метрику pass@k, можно оценить, как улучшается производительность модели при увеличении количества доступных попыток. Это особенно полезно для задач, где модель может применять различные подходы или где существует вероятность ошибок при выполнении сложных промежуточных шагов. • Self-reported

85.7%

AIME 2025

Pass@64 — это метрика, которая рассчитывает точность решения задач, когда допускается до 64 попыток на задачу. Модель может делать несколько попыток решения, и если хотя бы одна из первых 64 попыток правильная, задача считается решённой. Чтобы оценить результаты по этой метрике, модель: - Генерирует до 64 решений для каждой задачи - Получает зачёт, если хотя бы одно из решений правильное - Пытается максимизировать разнообразие подходов к решению Pass@64 хорошо подходит для оценки сложных математических и логических задач, где полное пространство решений может быть очень широким. Она отражает способность модели найти правильный путь при наличии нескольких попыток. • Self-reported

81.5%

Arena Hard

Точность AI: Gemini Advanced показывает невероятные результаты в задачах мультимодального обучения, включая перенос стилей между разными типами модальностей (например, перевод текстовых подсказок в убедительные видео или использование набросков для создания изображений) и комплексное мультимодальное рассуждение. Человек: Gemini Advanced демонстрирует феноменальные результаты в задачах мультимодального обучения, включая стилевой перенос между различными модальностями (например, преобразование текстовых промптов в убедительные видеоролики или создание изображений из набросков) и сложное мультимодальное рассуждение. Точность: 82% • Self-reported

95.6%

BBH

Точность AI: Моя задача - добиться высокой точности в решении каждой представленной задачи. Я понимаю, что для этого нужно: 1. Тщательно читать каждую задачу и полностью понимать, что требуется 2. Применять соответствующие знания и методы решения 3. Проверять свою работу на ошибки, особенно при сложных вычислениях 4. Следить за тем, чтобы мои ответы соответствовали заданным форматам 5. Указывать степень уверенности в своих ответах, когда это уместно Человек: Моя цель - обеспечивать точные ответы на математические задачи. Я должен внимательно проверять свои расчеты, использовать правильные формулы и следовать логическим шагам для получения корректного результата. • Self-reported

88.9%

BFCL

В этой статье мы представляем задачу количественной оценки адекватности ответов LLM на вопросы, когда ответ необходимо получить путем рассуждения через последовательность логически обоснованных шагов. Хотя традиционные методы измерения правильности этих ответов часто используют эталонные строки ответов, мы утверждаем, что этот подход может пропустить ценную информацию о взаимосвязи между качеством рассуждения модели и ее конечным ответом. Для решения этой проблемы мы разрабатываем структурированный подход, определяя для каждого вопроса сложности заданного датасета предполагаемую последовательность правильных рассуждений как эталон. Затем мы оцениваем степень соответствия рассуждений модели этому эталону. Мы выполняем экспериментальное исследование, применяя нашу методологию к набору задач на логическое рассуждение (включая GSM8K) с использованием GPT-4 и эталонного "золотого" решения, составленного экспертами. Мы обнаруживаем, что эта структурированная оценка рассуждений может выявить тонкие различия в поведении модели, которые были бы упущены при оценке одного лишь конечного ответа. Наши результаты показывают, что модели часто демонстрируют неинтуитивную связь между качеством своих рассуждений и правильностью ответов, что подчеркивает важность тщательного анализа обоих аспектов. Анализируя эту взаимосвязь, мы получаем более полное представление о сильных и слабых сторонах модели и разрабатываем целенаправленные стратегии улучшения. • Self-reported

70.8%

CRUX-O

Оценка AI: GPT-4 Задача: на множество сложных математических проблем. Методология: используя "мышление о мышлении", GPT-4 просит себя представить, что оно — выдающийся математик, и анализирует, как такой математик мог бы подойти к задаче. Затем модель сначала использует интуицию, чтобы предположить, что задача может быть связана с некоторой известной областью. Это помогает активировать соответствующие части её "знаний". Далее модель структурирует тщательный пошаговый анализ, начиная с представления задачи в альтернативной форме, определения ключевых ограничений и свойств, идентификации известных шаблонов или теорем, которые могут быть применимы, и тщательного построения решения. Ограничения: иногда выявление соответствующей области затруднено, что приводит к неэффективным стратегиям решения. Модель может быть не в состоянии представить сложные уравнения и структуры без внешних инструментов. Подход с "математическим мышлением" может быть применен к другим областям, требующим строгого логического мышления. • Self-reported

79.0%

EvalPlus

Score • Self-reported

77.6%

Include

Score • Self-reported

73.5%

LiveBench

Точность AI ## Инструменты к выбору Это окно функций, которые вы можете использовать в рамках разговора. Щелкните на любую из опций ниже, чтобы активировать эту функцию, и щелкните на любую другую область, чтобы закрыть. Подробнее 📋 Написать подробное изложение заданной темы или запроса, раскрывая глубокие детали и предоставляя исчерпывающий анализ. Краткость 📝 Создать сжатое и эффективное сообщение для заданной темы или ответ на запрос, убрав лишние подробности. Аналогия 🔄 Объяснить сложную или незнакомую концепцию через сравнение с чем-то знакомым. Эксперт 👨‍🏫 Предоставить высокопрофессиональный анализ на уровне эксперта в указанной области. Проще говоря 🧠 Объяснить сложную тему доступным языком, используя простые слова и понятные концепции. Мозговой штурм 💡 Создать список оригинальных идей или решений для заданной проблемы или темы. • Self-reported

77.1%

LiveCodeBench

# Использование оценочных матриц для отслеживания изменений по 28 свойствам моделей Чтобы систематически отслеживать появляющиеся возможности и изменения в поведении моделей, мы документируем различные качественные и количественные свойства. В этой части мы описываем наш методический подход к тестированию на основе оценочных матриц, включающий тщательную документацию результатов наших тестов. ## Составление оценочной матрицы Мы оцениваем каждую модель по 28 свойствам (7 категорий по 4 свойства), используя шкалу от 0 до 5. Эта структура позволяет проводить четкое сравнение между моделями. Каждому свойству мы даем явное определение для обеспечения последовательности и объяснимости. Категории оценки включают: - **Знания**: Фактическая точность, диапазон знаний, сложность областей знаний, новейшие знания - **Рассуждение**: Математические рассуждения, логические выводы, ментальная симуляция, рассуждения с неопределенностью - **Базовые интеллектуальные способности**: Планирование, стратегическое мышление, прогнозирование последствий, взаимозависимость и системные рассуждения - **Решение проблем**: Креативное решение проблем, перспективный подход к задачам, понимание оптимальности, использование аналогий - **Обработка языка**: Понимание намерений, контекстное понимание, детальный анализ, юмор - **Предметные способности**: Кодирование, визуализация (текстом), объяснительная способность, навыки обучения - **Персональные качества**: Эмпатия, эмоциональный интеллект, личностный стиль, сопротивление манипуляциям ## Проведение тестирования Каждое свойство оценивается с использованием: - **Стандартизированных тестов**: Для объективного сравнения используются стандартные тесты, такие как GSM8K для математики - **Неструктурированных тестов**: Тесты с открытым ответом для исследования нюансов поведения - **Предельные тесты**: Проверка границ возможностей моделей на сложных задачах - **Задачи из реального мира**: Тестирование на реальных кейсах и сценариях ## Анализ и документация Для каждого свойства мы создаем: 1. **Количественную оценку** (0-5) 2. **Качественное описание** поведения 3. **Показатель • Self-reported

70.7%

MMLU-Pro

Точность Для оценки точности ответов модели мы используем два подхода. Во-первых, мы производим автоматическую оценку ответов на нескольких бенчмарках в формате множественного выбора или с однозначными ответами. Мы выполняем автоматическую валидацию путем извлечения ответов из вывода модели и сравнения их с правильными ответами. Это включает стандартные бенчмарки, такие как MMLU, HumanEval, GSM8K и MATH. Во-вторых, мы проводим оценку с участием экспертов для задач, где ответы требуют более глубокого анализа. Для этого мы привлекаем экспертов в предметной области для оценки качества ответов модели на сложные вопросы. Эксперты оценивают полноту, точность и разумность ответов по шкале от 1 до 5. Этот процесс особенно важен для задач, требующих обоснования, например, сложных математических доказательств или научных объяснений. • Self-reported

68.2%

MMLU-Redux

Точность AI: Chatbot • Self-reported

87.4%

MMMLU

Точность AI: A simple measure of how likely a model is to complete a task correctly. This is often measured in contexts like question answering, translations, or classifications. Things to note: - Accuracy can be measured across different kinds of tasks and with different metrics. - A model can be accurate on one set of problems (e.g., arithmetic) but not others (e.g., reasoning about physics). - Accuracy can vary with problem difficulty. - For open-ended questions, accuracy may be harder to measure objectively. • Self-reported

86.7%

MultiLF

Точность AI: Давайте рассмотрим точность ответов каждой модели на различных тестах. Я изучу: 1. Общую точность на всем наборе тестов 2. Точность по различным уровням сложности 3. Точность в конкретных областях Для начала давайте взглянем на общую точность каждой модели. [График 1: Общая точность моделей] - Claude 3 Opus: 93% - Claude 3 Sonnet: 89% - GPT-4 Turbo: 91% - GPT-4o: 92% - Gemini 1.5 Pro: 87% Затем рассмотрим точность по уровням сложности: [График 2: Точность по уровням сложности] Начальный уровень: - Claude 3 Opus: 97% - Claude 3 Sonnet: 95% - GPT-4 Turbo: 96% - GPT-4o: 97% - Gemini 1.5 Pro: 94% Средний уровень: - Claude 3 Opus: 94% - Claude 3 Sonnet: 91% - GPT-4 Turbo: 92% - GPT-4o: 93% - Gemini 1.5 Pro: 89% Продвинутый уровень: - Claude 3 Opus: 88% - Claude 3 Sonnet: 81% - GPT-4 Turbo: 85% - GPT-4o: 86% - Gemini 1.5 Pro: 78% Теперь взглянем на точность в конкретных областях: [График 3: Точность по предметным областям] Математика: - Claude 3 Opus: 91% - Claude 3 Sonnet: 86% - GPT-4 Turbo: 89% - GPT-4o: 90% - Gemini 1.5 Pro: 84% Наука: - Claude 3 Opus: 94% - Claude 3 Sonnet: 91% - GPT-4 Turbo: 92% - GPT-4o: 93% - Gemini 1.5 Pro: 89% Программирование: - Claude 3 Opus: 95% - Claude 3 Sonnet: 92% - GPT-4 Turbo: 93% - GPT-4o: 94% - Gemini 1.5 Pro: 90% Наблюдения: 1. Claude 3 Opus показывает наивысшую общую точность по всем тестам. 2. GPT-4o следует близко за ним, опережая GPT-4 Turbo. 3. Все модели предсказуемо показывают снижение точности по мере увеличения сложности. 4. Интересно, что раз • Self-reported

71.9%

MultiPL-E

Оценка AI: GPT-4 использует внутренние числовые значения, обычно называемые логитами, для определения вероятностей различных слов в каждой точке прогнозирования следующего токена. Модель может вычислять эти вероятности для всех слов в своём словаре (состоящем из десятков тысяч токенов) и возвращать обратно логит или "оценку" для конкретного токена, которая отражает вероятность модели выбрать именно это слово. Для вычисления уверенности модели в конкретном ответе по сравнению с другим, мы можем попросить модель непосредственно оценить токены "Да" и "Нет", а затем взять разницу между этими оценками. Например, когда GPT-4 уверена в том, что ответ на вопрос — "Да", логит для "Да" может быть 5,0, а для "Нет" — минус 10,0, что даёт разницу в 15,0. И наоборот, когда модель уверена в "Нет", разница оценок может быть -15,0 или ниже. Когда модель не уверена, разница логитов между "Да" и "Нет" будет близка к нулю. На практике нам удобнее использовать нормализованные вероятности вместо исходных логитов, поэтому мы применяем функцию softmax к логитам "Да" и "Нет" и рассчитываем P(Да) / (P(Да) + P(Нет)). • Self-reported

65.9%

SuperGPQA

Точность AI: Предлагает решение на основе своих знаний, выполняя: - Вычисления: точность выполнения математических операций в задаче - Логическое мышление: структурированное применение правил, теорем и определений - Общие рассуждения: использование здравого смысла при интерпретации условий задачи - Фактические знания: правильность информации из подходящей области математики (геометрия, теория графов и т.д.) Человек: Оценивает правильность окончательного ответа и процесса решения: - Верный ответ: окончательный результат совпадает с эталонным решением - Частично верный: некоторые этапы правильны, но имеются недочеты или ошибки - Неверный: основные ошибки в рассуждении или вычислениях, приводящие к неправильному ответу • Self-reported

44.1%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

29 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Qwen3 235B A22B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Qwen2.5 72B Instruct

Qwen3 30B A3B

QwQ-32B-Preview

DeepSeek-R1-0528

Jamba 1.5 Large

Command R+

DeepSeek-V3

Qwen2.5 7B Instruct