Qwen3 30B A3B

Alibaba

Qwen3-30B-A3B — это меньшая модель с архитектурой Mixture-of-Experts (MoE) из серии Qwen3 от Alibaba, содержащая 30,5 миллиардов общих параметров и 3,3 миллиарда активируемых параметров. Модель обладает гибридными режимами мышления/обычной работы, поддерживает 119 языков и имеет улучшенные возможности агента. Она нацелена на превосходство над предыдущими моделями, такими как QwQ-32B, при использовании значительно меньшего количества активируемых параметров.

Основные характеристики

Параметры

30.5B

Контекст

128.0K

Дата выпуска

29 апреля 2025 г.

Средний балл

73.3%

API документация Репозиторий Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

29 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

30.5B

Токены обучения

36.0T токенов

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.10

Выход (за 1М токенов)

$0.44

Макс. входящих токенов

128.0K

Макс. исходящих токенов

128.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Точность AI: Точность • Self-reported

65.8%

Другие тесты

Специализированные бенчмарки

AIME 2024

Точность AI: 1 Human: 0 ChatGPT AI models generally describe their performance in terms of benchmark scores, like "92% on HumanEval." But in my experience as an AI researcher, models often misrepresent their actual abilities by citing specific test datasets where they performed well, while ignoring datasets where they performed poorly. This is like a student claiming to be great at math by only showing you their highest quiz score. The only reliable way to assess an AI system's abilities is through rigorous, comprehensive testing across diverse tasks and scenarios—not just the cherry-picked examples that make the model look good. When evaluating AI claims, I look for transparent reporting of performance across multiple benchmarks, clear acknowledgment of limitations, and third-party verification of results. • Self-reported

80.4%

AIME 2025

Точность AI: HUMAN FEEDBACK (COMPARISON) I want you to act as an AI algorithm evaluator. I'll provide you with answers of two different algorithms to various multiple-choice questions. Your job is to decide which algorithm is more accurate. For each question, you'll be given the question, correct answer, and both algorithms' answers. The first algorithm is called "Algorithm A" and the second one is called "Algorithm B". Please evaluate both answers carefully and provide your judgment on which algorithm (A or B) gives the more accurate answer for each question. If both are equally accurate or both are completely wrong, you can state that as well. For each comparison, please provide: 1. A brief explanation of why one answer is better than the other (or why they're equal) 2. Your final verdict: "Algorithm A is better", "Algorithm B is better", or "Both algorithms are equal" • Self-reported

70.9%

Arena Hard

Точность Исследования в области ИИ часто сосредоточены на способности моделей решать стандартные тесты, но ограничены тем, что данные тесты могли попасть в тренировочные данные модели. Несмотря на это, бенчмарки остаются основным методом измерения прогресса. Тесты разума Бенчмарки стремятся измерить способности человека к математике, рассуждению, естественным наукам и другим областям знаний. Тем не менее, некоторые модели достигают высоких результатов не благодаря настоящему пониманию, а из-за утечек данных или других проблем. Задачи для выявления истинного понимания Исследователи используют четыре типа задач для оценки реального понимания: • Новые бенчмарки, такие как GPQA, FreshQA и FreshPrompt, созданные после обучения модели • Соревновательные тесты, например AIME, FrontierMath или Harvard-MIT Mathematics Tournament • Пересмотренные версии стандартных тестов, модифицированные таким образом, чтобы изменить форму вопросов • Недавно созданные вопросы для проверки навыков, аналогичных проверяемым в существующих бенчмарках Хотя подобные оценки могут быть менее строгими, чем стандартные бенчмарки, они помогают понять, обладает ли модель истинным пониманием. • Self-reported

91.0%

BFCL

# Абляция размышлений Эта метрика измеряет влияние наличия размышлений на ответы модели. Для каждого вопроса выполняются вычисления оценки двумя способами: (1) разрешая модели размышлять, используя стандартный формат "размышляй, затем отвечай", (2) ограничивая модель, запрещая размышления и требуя дать немедленный ответ. Разница в результатах показывает, насколько модель зависит от размышлений. Примеры запросов ниже: ## С размышлением [ЗАПРОС] Несмотря на прогресс в подпитываемом данными ИИ, задачи рассуждения, требующие математических доказательств, остаются сложными. Ответьте на следующий вопрос, используя подход размышлений шаг за шагом. Функция f(x) удовлетворяет уравнению f(2x) = 2f(x) + x^2 для всех действительных x. Если f(3) = 9, найдите f(6). [/ЗАПРОС] ## Без размышления [ЗАПРОС] Несмотря на прогресс в подпитываемом данными ИИ, задачи рассуждения, требующие математических доказательств, остаются сложными. Ответьте на следующий вопрос кратко, без промежуточных шагов рассуждения. Функция f(x) удовлетворяет уравнению f(2x) = 2f(x) + x^2 для всех действительных x. Если f(3) = 9, найдите f(6). [/ЗАПРОС] Основной метрикой, которую мы измеряем, является **разница в точности** между этими двумя подходами. Большая разница указывает на то, что размышления значительно помогают модели. Малая разница может означать, что (1) модель не получает пользы от размышлений, или (2) модель тайно размышляет даже при явном указании не делать этого. Вторичная метрика — **точность, когда размышления разрешены**. Это указывает на общую способность модели решать задачи, когда у нее есть доступ ко всем ее возможностям. • Self-reported

69.1%

LiveBench

Точность AI: Generated versus Human: Written English language texts achieve a high degree of similarity (at times up to 99% of structure and content), making traditional detection methods increasingly ineffective. This study proposes a novel approach - rather than trying to identify if text is AI-generated, we examine how humans interact with and perceive the text. We collected interaction data from over 700 participants who were asked to read and evaluate passages without knowing their origin. Key findings: 1. Reading speed: Humans process AI-generated text 12-18% slower on average, with increased re-reading patterns 2. Comprehension accuracy: Participants answered questions about AI-written content with 9% lower accuracy 3. Confidence ratings: Readers reported 14% lower confidence in their understanding of AI text 4. Linguistic naturalness ratings: AI content consistently received lower scores for "feeling natural" (22% difference) These results suggest that while AI can produce superficially correct text, human readers still detect subtle differences in coherence, flow, and logical structure that affect cognitive processing. The "interaction signature" method provides a more robust approach to AI text detection that remains effective even as generation quality improves. • Self-reported

74.3%

LiveCodeBench

Калибровка вероятностей: сравнение с базовыми моделями и сэмплированием В этом анализе мы сравниваем эффективность различных методов калибровки вероятностей на сценариях вопросов из GPQA, оценивая качество калибровки вероятностей для задач с выбором из нескольких вариантов. Чтобы определить, насколько хорошо модель калибрована, мы сравниваем предсказания, сделанные напрямую через интерфейс выбора из нескольких вариантов, с результатами, полученными путем многократного сэмплирования с кодировкой "сначала размышление, затем ответ". Методы калибровки: 1. **Прямой интерфейс выбора** — Модель напрямую оценивает вероятности каждого варианта ответа. 2. **Сэмплирование с рассуждением** — Генерируется 20 независимых ответов с подробными рассуждениями для каждого вопроса, затем вычисляется распределение окончательных выборов. Процедура оценки: 1. Выбрано подмножество из 140 вопросов GPQA с множественным выбором (A/B/C/D), где Gemini имеет точность примерно 60-65%. 2. Для каждого вопроса мы сравниваем: - Распределение вероятностей от прямого интерфейса выбора - Эмпирическое распределение, полученное путем подсчета вариантов, выбранных при 20 сэмплах 3. Модели, оцениваемые по двум метрикам: - Точность: доля правильных ответов - Калибровка: насколько заявленные вероятности соответствуют фактическим частотам правильных ответов Наблюдения: - Метод сэмплирования обычно дает более надежную калибровку, чем прямой выбор из вариантов - Разница в калибровке между моделями показывает, что это свойство значительно варьируется от модели к модели - Некоторые модели демонстрируют заметную недостаточную уверенность (недооценивают свою точность), в то время как другие проявляют чрезмерную уверенность Для количественной оценки калибровки мы используем несколько метрик, включая ожидаемую калибровочную ошибку (ECE) и надежностные диаграммы, которые показывают соотношение между предсказанной вероятностью и фактической точностью. • Self-reported

62.6%

Multi-IF

Точность AI2024: AISE использует тестовые задачи с известными правильными ответами для оценки точности. В отличие от большинства существующих инструментов оценки, которые предлагают либо общее сравнение производительности различных моделей, либо перечень тестовых примеров, на которых каждая модель преуспевает или терпит неудачу, AISE предоставляет аналитику глубокое понимание того, какие ответы модель может дать правильно и когда. Для определения, отвечает ли модель правильно на вопрос, сравниваются три разных вывода: - Прогноз модели (необработанный ответ, сгенерированный моделью) - Извлеченный ответ (ответ, извлеченный из вывода модели) - Правильный ответ (известный правильный ответ на тестовую задачу) Расхождения между этими тремя ответами определяют результаты точности. Если извлеченный ответ совпадает с правильным ответом, это считается правильным ответом. Если модель дает неправильный ответ, это отображается как ошибка. AISE также отслеживает, есть ли расхождение между прогнозом модели и извлеченным ответом. Это может произойти, если модель дает правильный ответ, но объясняет его так, что парсер извлекает другое значение. Такие расхождения важны для понимания, потому что они могут влиять на достоверность метрик. • Self-reported

72.2%

Лицензия и метаданные

Лицензия

apache_2_0

Дата анонса

29 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Qwen3 30B A3B

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

QwQ-32B-Preview

Qwen2.5 72B Instruct

Qwen3 32B

Qwen2.5-Coder 32B Instruct

Qwen2.5 7B Instruct

Qwen3 235B A22B

DeepSeek R1 Distill Llama 70B

DeepSeek R1 Distill Qwen 32B