Qwen3-Max-Thinking: Alibaba выпустила конкурента o3 и Claude Thinking
Alibaba представила Qwen3-Max-Thinking — reasoning-модель с адаптивным использованием инструментов и multi-round thinking. На ряде бенчмарков опережает GPT-5.2 и Gemini 3 Pro.

Alibaba представила Qwen3-Max-Thinking — флагманскую reasoning-модель, которая на ряде тестов обходит GPT-5.2-Thinking, Claude Opus 4.5 и Gemini 3 Pro. Модель уже доступна через API и в чате chat.qwen.ai.
Главное
Qwen3-Max-Thinking — это не просто увеличение параметров. Alibaba сделала ставку на три направления: масштабирование reinforcement learning, адаптивное использование инструментов и новый подход к test-time scaling.
На 19 стандартных бенчмарках модель показывает результаты на уровне лучших моделей. На некоторых — превосходит их. Arena-Hard v2: 90.2 против 80.6 у GPT-5.2-Thinking и 81.7 у Gemini 3 Pro. HLE с инструментами: 49.8 — выше, чем у всех конкурентов.
Бенчмарки
| Категория | Тест | Qwen3-Max-Thinking | GPT-5.2-Thinking | Gemini 3 Pro |
|---|---|---|---|---|
| Знания | MMLU-Pro | 85.7 | 87.4 | 89.8 |
| STEM | GPQA | 87.4 | 92.4 | 91.9 |
| Код | LiveCodeBench v6 | 85.9 | 87.7 | 90.7 |
| Математика | HMMT Feb 25 | 98.0 | 99.4 | 97.5 |
| Агентный код | SWE Verified | 75.3 | 80.0 | 76.2 |
| Агентный поиск | HLE w/ tools | 49.8 | 45.5 | 45.8 |
| Alignment | Arena-Hard v2 | 90.2 | 80.6 | 81.7 |
| Инструменты | Tau² Bench | 82.1 | 80.9 | 85.4 |
На математических олимпиадных тестах (HMMT) модель показывает 98-94.7%, уступая только GPT-5.2. На HLE с инструментами и Arena-Hard v2 — лидирует.
Адаптивные инструменты
Главная инновация — модель сама решает, какие инструменты использовать. Не нужно заранее указывать, что ей доступен поиск или code interpreter. Qwen3-Max-Thinking автономно выбирает между встроенным поиском, памятью и исполнением кода в зависимости от задачи.
На практике это означает: поиск снижает галлюцинации и даёт доступ к актуальной информации, память позволяет персонализировать ответы, code interpreter решает вычислительные задачи. Всё это работает без явных инструкций от пользователя.
Experience-Cumulative Scaling
Alibaba предложила новый подход к test-time scaling — увеличению вычислений на этапе инференса. Вместо того чтобы наращивать количество параллельных траекторий рассуждения (что часто приводит к избыточности), модель ограничивает их число и перенаправляет ресурсы на итеративную саморефлексию.
Механизм take-experience извлекает ключевые выводы из предыдущих раундов, позволяя модели не переоткрывать уже известное и фокусироваться на нерешённых проблемах. При том же количестве токенов результаты улучшаются: GPQA вырастает с 90.3 до 92.8, HLE — с 34.1 до 36.5, LiveCodeBench — с 88.0 до 91.4.
Как использовать
Модель доступна в Qwen Chat с полным набором адаптивных инструментов. Через API (модель qwen3-max-2026-01-23) она совместима с OpenAI API:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_KEY",
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)
completion = client.chat.completions.create(
model="qwen3-max-2026-01-23",
messages=[{"role": "user", "content": "Solve this math problem..."}],
extra_body={"enable_thinking": True}
)
Также поддерживается протокол Anthropic API, что позволяет использовать Qwen3-Max-Thinking с Claude Code.
Контекст
Qwen продолжает наращивать давление на западных конкурентов. После успеха Qwen2.5 и открытых моделей серии Qwen3, новая reasoning-модель закрывает пробел в сложных рассуждениях и агентных задачах.
Для разработчиков в России и странах без прямого доступа к API OpenAI или Anthropic это важная альтернатива: совместимый API, серьёзные показатели на бенчмарках и активная работа над агентными возможностями.


