Qwen3-Max-Thinking: Alibaba выпустила конкурента o3 и Claude Thinking

Alibaba представила Qwen3-Max-Thinking — reasoning-модель с адаптивным использованием инструментов и multi-round thinking. На ряде бенчмарков опережает GPT-5.2 и Gemini 3 Pro.

Alibaba представила Qwen3-Max-Thinking — флагманскую reasoning-модель, которая на ряде тестов обходит GPT-5.2-Thinking, Claude Opus 4.5 и Gemini 3 Pro. Модель уже доступна через API и в чате chat.qwen.ai.

Главное

Qwen3-Max-Thinking — это не просто увеличение параметров. Alibaba сделала ставку на три направления: масштабирование reinforcement learning, адаптивное использование инструментов и новый подход к test-time scaling.

На 19 стандартных бенчмарках модель показывает результаты на уровне лучших моделей. На некоторых — превосходит их. Arena-Hard v2: 90.2 против 80.6 у GPT-5.2-Thinking и 81.7 у Gemini 3 Pro. HLE с инструментами: 49.8 — выше, чем у всех конкурентов.

Бенчмарки

Категория	Тест	Qwen3-Max-Thinking	GPT-5.2-Thinking	Gemini 3 Pro
Знания	MMLU-Pro	85.7	87.4	89.8
STEM	GPQA	87.4	92.4	91.9
Код	LiveCodeBench v6	85.9	87.7	90.7
Математика	HMMT Feb 25	98.0	99.4	97.5
Агентный код	SWE Verified	75.3	80.0	76.2
Агентный поиск	HLE w/ tools	49.8	45.5	45.8
Alignment	Arena-Hard v2	90.2	80.6	81.7
Инструменты	Tau² Bench	82.1	80.9	85.4

На математических олимпиадных тестах (HMMT) модель показывает 98-94.7%, уступая только GPT-5.2. На HLE с инструментами и Arena-Hard v2 — лидирует.

Адаптивные инструменты

Главная инновация — модель сама решает, какие инструменты использовать. Не нужно заранее указывать, что ей доступен поиск или code interpreter. Qwen3-Max-Thinking автономно выбирает между встроенным поиском, памятью и исполнением кода в зависимости от задачи.

На практике это означает: поиск снижает галлюцинации и даёт доступ к актуальной информации, память позволяет персонализировать ответы, code interpreter решает вычислительные задачи. Всё это работает без явных инструкций от пользователя.

Experience-Cumulative Scaling

Alibaba предложила новый подход к test-time scaling — увеличению вычислений на этапе инференса. Вместо того чтобы наращивать количество параллельных траекторий рассуждения (что часто приводит к избыточности), модель ограничивает их число и перенаправляет ресурсы на итеративную саморефлексию.

Механизм take-experience извлекает ключевые выводы из предыдущих раундов, позволяя модели не переоткрывать уже известное и фокусироваться на нерешённых проблемах. При том же количестве токенов результаты улучшаются: GPQA вырастает с 90.3 до 92.8, HLE — с 34.1 до 36.5, LiveCodeBench — с 88.0 до 91.4.

Как использовать

Модель доступна в Qwen Chat с полным набором адаптивных инструментов. Через API (модель qwen3-max-2026-01-23) она совместима с OpenAI API:

from openai import OpenAI
client = OpenAI(
    api_key="YOUR_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)
completion = client.chat.completions.create(
    model="qwen3-max-2026-01-23",
    messages=[{"role": "user", "content": "Solve this math problem..."}],
    extra_body={"enable_thinking": True}
)

Также поддерживается протокол Anthropic API, что позволяет использовать Qwen3-Max-Thinking с Claude Code.

Контекст

Qwen продолжает наращивать давление на западных конкурентов. После успеха Qwen2.5 и открытых моделей серии Qwen3, новая reasoning-модель закрывает пробел в сложных рассуждениях и агентных задачах.

Для разработчиков в России и странах без прямого доступа к API OpenAI или Anthropic это важная альтернатива: совместимый API, серьёзные показатели на бенчмарках и активная работа над агентными возможностями.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Qwen3-Max-Thinking: Alibaba выпустила конкурента o3 и Claude Thinking

Главное

Бенчмарки

Адаптивные инструменты

Experience-Cumulative Scaling

Как использовать

Контекст

Похожие новости

Глава Qwen: Китай отстаёт от США в AI из-за нехватки compute

Qwen открыла полный набор TTS-моделей с поддержкой русского

Kimi K2.5: китайская open-source модель обошла GPT-5.2 и Claude Opus в кодинге