GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
qwenalibabareasoningapiбенчмарки

Qwen3-Max-Thinking: Alibaba выпустила конкурента o3 и Claude Thinking

Alibaba представила Qwen3-Max-Thinking — reasoning-модель с адаптивным использованием инструментов и multi-round thinking. На ряде бенчмарков опережает GPT-5.2 и Gemini 3 Pro.

Влад МакаровВлад Макаровпроверил и опубликовал
6 мин чтения
Qwen3-Max-Thinking: Alibaba выпустила конкурента o3 и Claude Thinking

Alibaba представила Qwen3-Max-Thinking — флагманскую reasoning-модель, которая на ряде тестов обходит GPT-5.2-Thinking, Claude Opus 4.5 и Gemini 3 Pro. Модель уже доступна через API и в чате chat.qwen.ai.

Главное

Qwen3-Max-Thinking — это не просто увеличение параметров. Alibaba сделала ставку на три направления: масштабирование reinforcement learning, адаптивное использование инструментов и новый подход к test-time scaling.

На 19 стандартных бенчмарках модель показывает результаты на уровне лучших моделей. На некоторых — превосходит их. Arena-Hard v2: 90.2 против 80.6 у GPT-5.2-Thinking и 81.7 у Gemini 3 Pro. HLE с инструментами: 49.8 — выше, чем у всех конкурентов.

Бенчмарки

КатегорияТестQwen3-Max-ThinkingGPT-5.2-ThinkingGemini 3 Pro
ЗнанияMMLU-Pro85.787.489.8
STEMGPQA87.492.491.9
КодLiveCodeBench v685.987.790.7
МатематикаHMMT Feb 2598.099.497.5
Агентный кодSWE Verified75.380.076.2
Агентный поискHLE w/ tools49.845.545.8
AlignmentArena-Hard v290.280.681.7
ИнструментыTau² Bench82.180.985.4

На математических олимпиадных тестах (HMMT) модель показывает 98-94.7%, уступая только GPT-5.2. На HLE с инструментами и Arena-Hard v2 — лидирует.

Адаптивные инструменты

Главная инновация — модель сама решает, какие инструменты использовать. Не нужно заранее указывать, что ей доступен поиск или code interpreter. Qwen3-Max-Thinking автономно выбирает между встроенным поиском, памятью и исполнением кода в зависимости от задачи.

На практике это означает: поиск снижает галлюцинации и даёт доступ к актуальной информации, память позволяет персонализировать ответы, code interpreter решает вычислительные задачи. Всё это работает без явных инструкций от пользователя.

Experience-Cumulative Scaling

Alibaba предложила новый подход к test-time scaling — увеличению вычислений на этапе инференса. Вместо того чтобы наращивать количество параллельных траекторий рассуждения (что часто приводит к избыточности), модель ограничивает их число и перенаправляет ресурсы на итеративную саморефлексию.

Механизм take-experience извлекает ключевые выводы из предыдущих раундов, позволяя модели не переоткрывать уже известное и фокусироваться на нерешённых проблемах. При том же количестве токенов результаты улучшаются: GPQA вырастает с 90.3 до 92.8, HLE — с 34.1 до 36.5, LiveCodeBench — с 88.0 до 91.4.

Как использовать

Модель доступна в Qwen Chat с полным набором адаптивных инструментов. Через API (модель qwen3-max-2026-01-23) она совместима с OpenAI API:

from openai import OpenAI
client = OpenAI(
    api_key="YOUR_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)
completion = client.chat.completions.create(
    model="qwen3-max-2026-01-23",
    messages=[{"role": "user", "content": "Solve this math problem..."}],
    extra_body={"enable_thinking": True}
)

Также поддерживается протокол Anthropic API, что позволяет использовать Qwen3-Max-Thinking с Claude Code.

Контекст

Qwen продолжает наращивать давление на западных конкурентов. После успеха Qwen2.5 и открытых моделей серии Qwen3, новая reasoning-модель закрывает пробел в сложных рассуждениях и агентных задачах.

Для разработчиков в России и странах без прямого доступа к API OpenAI или Anthropic это важная альтернатива: совместимый API, серьёзные показатели на бенчмарках и активная работа над агентными возможностями.

Похожие новости

Листайте вниз

для загрузки следующей статьи