45 против 50: open-source модели почти догнали проприетарные
Artificial Analysis Index v4.0 показал минимальный разрыв между открытыми и закрытыми моделями за всю историю. GLM-5, Kimi K2.5 и Qwen3 наступают на пятки GPT-5.2 и Claude Opus 4.6.

Год назад разрыв казался непреодолимым. Проприетарные модели стабильно лидировали с отрывом в 15-20 баллов по ключевым бенчмаркам, а open-source догонял медленно и без особых надежд на паритет. Февраль 2026-го перевернул эту картину: по данным Artificial Analysis Intelligence Index v4.0, лучшие открытые модели набирают 45-47 баллов против 50-53 у проприетарных лидеров. Разрыв сократился до минимума за всю историю наблюдений.
Кто и как считал
Artificial Analysis Intelligence Index v4.0 — один из немногих по-настоящему независимых бенчмарков в индустрии. В отличие от результатов, заявляемых самими лабораториями, здесь все тесты проводятся на собственном оборудовании по единой методологии. Индекс включает 10 оценок: GDPval-AA, τ²-Bench Telecom, Terminal-Bench Hard, SciCode, AA-LCR, AA-Omniscience, IFBench, Humanity's Last Exam, GPQA Diamond и CritPt. Это покрывает рассуждения, знания, математику, кодинг и работу с инструментами.
Результат — композитный балл, по которому можно сравнивать модели разных поколений и производителей на равных условиях.
Расстановка сил: февраль 2026
На вершине проприетарного олимпа по-прежнему GPT-5.2 и Claude Opus 4.6, набирающие 50-53 балла. Gemini 3 Pro Preview держится рядом. Но прямо за ними — тройка open-source моделей, которая год назад была бы немыслима на таких позициях.
| Модель | Тип | Индекс | Параметры | Лицензия |
|---|---|---|---|---|
| GPT-5.2 (xhigh) | Проприетарная | ~53 | Закрыто | Закрытая |
| Claude Opus 4.6 | Проприетарная | ~52 | Закрыто | Закрытая |
| Gemini 3 Pro | Проприетарная | ~50 | Закрыто | Закрытая |
| GLM-5 (Reasoning) | Open-source | 50 | 744B (40B active) | MIT |
| Kimi K2.5 (Reasoning) | Open-source | ~47 | 1T (32B active) | Open weights |
| Qwen3 Max | Open-source | ~45 | Закрыто | API |
| MiniMax-M2.5 | Open-source | ~44 | 229B (10B active) | MIT |
GLM-5 от Z.ai заслуживает отдельного внимания — модель набрала 50 баллов по Intelligence Index, фактически сравнявшись с Gemini 3 Pro. При этом она выпущена под лицензией MIT, что позволяет любое коммерческое использование. На SWE-bench Verified GLM-5 показала 77.8% — выше Gemini 3 Pro (76.2%) и лишь немного ниже Claude Opus 4.6 (80.9%).
Почему разрыв сокращается
Причин несколько, и они усиливают друг друга.
Первая — архитектура Mixture of Experts стала стандартом. GLM-5 использует 744 миллиарда параметров, но при инференсе активны только 40 миллиардов. Kimi K2.5 — триллион параметров с 32 миллиардами активных. Это позволяет достигать качества огромных моделей при разумных вычислительных затратах.
Вторая — китайские лаборатории вливают серьёзные ресурсы в обучение. Z.ai, Moonshot AI, Alibaba и ByteDance ведут настоящую гонку, выпуская новые модели каждые две-три недели. Конкуренция между ними работает лучше любого бенчмарка.
Третья — reinforcement learning. VentureBeat отмечает, что GLM-5 использует новую технику RL под названием «slime», которая привела к рекордно низкому уровню галлюцинаций. MiniMax-M2.5 тренировали с RL в 200 тысячах окружений. Подходы к обучению становятся всё более изощрёнными.
Что это значит для рынка
По оценке WhatLLM, для 80% задач open-source модели уже предлагают лучшее соотношение цены и качества. Разница в стоимости — драматическая. GLM-5 стоит $1.00 за миллион входных токенов и $3.20 за миллион выходных. Claude Opus 4.6 — $5.00 и $25.00 соответственно. GPT-5.2 — $1.75 и $14.00. А DeepSeek — $0.28 и $0.42.
Для компаний, которые обрабатывают большие объёмы текста, экономия при переходе на open-source может достигать 86%. При этом разница в качестве для типовых задач — классификации, суммаризации, генерации контента — практически неощутима.
Проприетарные модели сохраняют лидерство в двух областях: сложный многошаговый кодинг (SWE-bench, Terminal-Bench) и задачи, требующие экстремально длинного рассуждения. Но и здесь окно преимущества сужается с каждым месяцем.
Гибридная стратегия как новая норма
Практический вывод напрашивается сам: гибридная стратегия — open-source для объёмных задач, проприетарные модели для критических — становится оптимальным подходом для большинства организаций.
Kimi K2.5 уже сопоставим с GPT-5.2 и Claude Opus 4.5 по большинству метрик. На агентных бенчмарках K2.5 показывает улучшение на 59% по сравнению с предыдущей версией. Для компаний, которым важны приватность и контроль над данными, возможность запускать модель такого уровня на своих серверах — серьёзный аргумент.
Интересно, что сами проприетарные компании чувствуют давление. OpenAI в феврале объявила о прекращении поддержки GPT-4o и GPT-4.1, консолидируя линейку вокруг более новых моделей. Конкуренция со стороны open-source ускоряет этот процесс — держать устаревшие модели становится экономически бессмысленным, когда бесплатные альтернативы работают не хуже.
Что дальше
При текущих темпах, по прогнозу WhatLLM, к середине 2026 года open-source модели достигнут паритета с сегодняшними лучшими проприетарными. Не «догонят модели полугодовой давности», а именно сравняются с актуальным фронтиром.
Это не означает смерть проприетарных моделей — скорее смену модели монетизации. Ценность сместится от самой модели к инфраструктуре: инструментам разработки, API-экосистемам, enterprise-поддержке. Модель как таковая постепенно становится commodity. И февральские данные Artificial Analysis — пожалуй, самый убедительный аргумент в пользу этой тенденции.


