GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
open-sourceбенчмаркиArtificial AnalysisGLM-5Kimi K2.5Qwen3

45 против 50: open-source модели почти догнали проприетарные

Artificial Analysis Index v4.0 показал минимальный разрыв между открытыми и закрытыми моделями за всю историю. GLM-5, Kimi K2.5 и Qwen3 наступают на пятки GPT-5.2 и Claude Opus 4.6.

Влад МакаровВлад Макаровпроверил и опубликовал
7 мин чтения
45 против 50: open-source модели почти догнали проприетарные

Год назад разрыв казался непреодолимым. Проприетарные модели стабильно лидировали с отрывом в 15-20 баллов по ключевым бенчмаркам, а open-source догонял медленно и без особых надежд на паритет. Февраль 2026-го перевернул эту картину: по данным Artificial Analysis Intelligence Index v4.0, лучшие открытые модели набирают 45-47 баллов против 50-53 у проприетарных лидеров. Разрыв сократился до минимума за всю историю наблюдений.

Кто и как считал

Artificial Analysis Intelligence Index v4.0 — один из немногих по-настоящему независимых бенчмарков в индустрии. В отличие от результатов, заявляемых самими лабораториями, здесь все тесты проводятся на собственном оборудовании по единой методологии. Индекс включает 10 оценок: GDPval-AA, τ²-Bench Telecom, Terminal-Bench Hard, SciCode, AA-LCR, AA-Omniscience, IFBench, Humanity's Last Exam, GPQA Diamond и CritPt. Это покрывает рассуждения, знания, математику, кодинг и работу с инструментами.

Результат — композитный балл, по которому можно сравнивать модели разных поколений и производителей на равных условиях.

Расстановка сил: февраль 2026

На вершине проприетарного олимпа по-прежнему GPT-5.2 и Claude Opus 4.6, набирающие 50-53 балла. Gemini 3 Pro Preview держится рядом. Но прямо за ними — тройка open-source моделей, которая год назад была бы немыслима на таких позициях.

МодельТипИндексПараметрыЛицензия
GPT-5.2 (xhigh)Проприетарная~53ЗакрытоЗакрытая
Claude Opus 4.6Проприетарная~52ЗакрытоЗакрытая
Gemini 3 ProПроприетарная~50ЗакрытоЗакрытая
GLM-5 (Reasoning)Open-source50744B (40B active)MIT
Kimi K2.5 (Reasoning)Open-source~471T (32B active)Open weights
Qwen3 MaxOpen-source~45ЗакрытоAPI
MiniMax-M2.5Open-source~44229B (10B active)MIT

GLM-5 от Z.ai заслуживает отдельного внимания — модель набрала 50 баллов по Intelligence Index, фактически сравнявшись с Gemini 3 Pro. При этом она выпущена под лицензией MIT, что позволяет любое коммерческое использование. На SWE-bench Verified GLM-5 показала 77.8% — выше Gemini 3 Pro (76.2%) и лишь немного ниже Claude Opus 4.6 (80.9%).

Почему разрыв сокращается

Причин несколько, и они усиливают друг друга.

Первая — архитектура Mixture of Experts стала стандартом. GLM-5 использует 744 миллиарда параметров, но при инференсе активны только 40 миллиардов. Kimi K2.5 — триллион параметров с 32 миллиардами активных. Это позволяет достигать качества огромных моделей при разумных вычислительных затратах.

Вторая — китайские лаборатории вливают серьёзные ресурсы в обучение. Z.ai, Moonshot AI, Alibaba и ByteDance ведут настоящую гонку, выпуская новые модели каждые две-три недели. Конкуренция между ними работает лучше любого бенчмарка.

Третья — reinforcement learning. VentureBeat отмечает, что GLM-5 использует новую технику RL под названием «slime», которая привела к рекордно низкому уровню галлюцинаций. MiniMax-M2.5 тренировали с RL в 200 тысячах окружений. Подходы к обучению становятся всё более изощрёнными.

Что это значит для рынка

По оценке WhatLLM, для 80% задач open-source модели уже предлагают лучшее соотношение цены и качества. Разница в стоимости — драматическая. GLM-5 стоит $1.00 за миллион входных токенов и $3.20 за миллион выходных. Claude Opus 4.6 — $5.00 и $25.00 соответственно. GPT-5.2 — $1.75 и $14.00. А DeepSeek — $0.28 и $0.42.

Для компаний, которые обрабатывают большие объёмы текста, экономия при переходе на open-source может достигать 86%. При этом разница в качестве для типовых задач — классификации, суммаризации, генерации контента — практически неощутима.

Проприетарные модели сохраняют лидерство в двух областях: сложный многошаговый кодинг (SWE-bench, Terminal-Bench) и задачи, требующие экстремально длинного рассуждения. Но и здесь окно преимущества сужается с каждым месяцем.

Гибридная стратегия как новая норма

Практический вывод напрашивается сам: гибридная стратегия — open-source для объёмных задач, проприетарные модели для критических — становится оптимальным подходом для большинства организаций.

Kimi K2.5 уже сопоставим с GPT-5.2 и Claude Opus 4.5 по большинству метрик. На агентных бенчмарках K2.5 показывает улучшение на 59% по сравнению с предыдущей версией. Для компаний, которым важны приватность и контроль над данными, возможность запускать модель такого уровня на своих серверах — серьёзный аргумент.

Интересно, что сами проприетарные компании чувствуют давление. OpenAI в феврале объявила о прекращении поддержки GPT-4o и GPT-4.1, консолидируя линейку вокруг более новых моделей. Конкуренция со стороны open-source ускоряет этот процесс — держать устаревшие модели становится экономически бессмысленным, когда бесплатные альтернативы работают не хуже.

Что дальше

При текущих темпах, по прогнозу WhatLLM, к середине 2026 года open-source модели достигнут паритета с сегодняшними лучшими проприетарными. Не «догонят модели полугодовой давности», а именно сравняются с актуальным фронтиром.

Это не означает смерть проприетарных моделей — скорее смену модели монетизации. Ценность сместится от самой модели к инфраструктуре: инструментам разработки, API-экосистемам, enterprise-поддержке. Модель как таковая постепенно становится commodity. И февральские данные Artificial Analysis — пожалуй, самый убедительный аргумент в пользу этой тенденции.

Похожие новости

Листайте вниз

для загрузки следующей статьи