Что стоит за Kimi K2.5: команда Moonshot AI о будущем модели

Основатели Moonshot AI раскрыли планы на K3, секреты архитектуры KDA и причины уникального стиля K2.5 в сессии вопросов-ответов на Reddit.

Китайский стартап Moonshot AI недавно провёл открытую сессию вопросов-ответов на Reddit, где основатели и исследователи впервые рассказали о технологиях, стоящих за Kimi K2.5, и поделились планами на будущее. Модель с триллионом параметров уже конкурирует с GPT-5.2 и Claude Opus 4.5 на ключевых бенчмарках — но что делает её особенной?

Архитектура K2.5: триллион параметров под капотом

Kimi K2.5 — это модель на архитектуре Mixture-of-Experts (MoE) с впечатляющими характеристиками: 1 триллион общих параметров, из которых только 32 миллиарда активны при генерации каждого токена. Такой подход позволяет достигать качества крупных моделей при существенно меньших затратах на инференс.

Модель обучалась на 15 триллионах токенов и использует 384 эксперта — это значительно больше, чем у Mixtral с его 8 экспертами. При этом K2 Thinking работает в нативном INT4 формате, что дополнительно ускоряет генерацию.

Характеристики модели:

Параметры: 1T общих / 32B активных
Эксперты: 384
Обучение: 15T токенов
Контекст: до 256K токенов

KDA hybrids: секрет следующего поколения

Один из самых интересных моментов интервью касался архитектуры внимания. На вопрос о будущем K3 команда ответила, что KDA hybrids с NOPE MLA превосходят традиционные ROPE-based MLA в их тестах.

Что это означает на практике? Новая архитектура позволяет не только достигать более высоких результатов на бенчмарках, но и значительно ускоряет обучение, развёртывание при RL (reinforcement learning) и обслуживание пользователей. Команда подтвердила, что «связанные идеи, вероятно, будут применены в K3».

Agent Swarm: до 100 агентов параллельно

Одна из уникальных возможностей K2.5 — технология Agent Swarm, позволяющая запускать до 100 суб-агентов одновременно. Система способна выполнять до 1500 параллельных вызовов инструментов, что открывает новые возможности для сложных agentic-задач.

На бенчмарке BrowseComp с использованием Agent Swarm модель показывает 78.4% — лучший результат среди протестированных систем. Для сравнения, без этой технологии результат составляет 60.6%.

«Креативный почерк» — не баг, а фича

Пользователи Reddit заметили, что K2-Instruct имеет характерный, узнаваемый стиль письма. Был ли это побочный эффект обучения или осознанный выбор?

Ответ команды оказался прямым: «Нам тоже нравится его стиль письма, и это важная часть наших post-training данных и оценки». То есть креативный, слегка нестандартный способ формулировать мысли — результат намеренного выбора при обучении.

Контекст в 1 миллион токенов: пока слишком дорого

На вопрос о расширении контекстного окна до 1 миллиона токенов команда дала честный ответ: такую возможность они уже реализовывали, но обслуживание оказалось слишком дорогим. В будущем они планируют вернуться к этой теме.

Сейчас модель поддерживает до 256 тысяч токенов контекста — этого достаточно для большинства задач, включая анализ длинных документов и кода.

Самый сложный вызов: чередование мышления и инструментов

Интересный инсайт о процессе разработки: команда назвала самой сложной задачей поддержку чередующегося режима «думай — используй инструмент — думай — используй инструмент». Это относительно новое поведение для LLM, и потребовалось много работы, чтобы реализовать его корректно.

Именно этот режим делает K2.5 особенно эффективной для agentic-задач, где модель должна планировать действия, выполнять их через внешние инструменты и корректировать план на основе результатов.

Бенчмарки: где K2.5 лидирует

Результаты модели впечатляют в нескольких категориях. На мультимодальных задачах: MMMU Pro — 78.5%, VideoMMMU — 86.6%. В кодинге: SWE-bench Verified — 76.8%, что ставит модель на уровень с GPT-5.2 и Claude Opus 4.5.

Бенчмарк	Kimi K2.5	GPT-5.2	Claude 4.5 Opus
MMMU Pro	78.5%	79.5%	74.0%
VideoMMMU	86.6%	85.9%	84.4%
SWE-bench	76.8%	80.0%	80.9%
BrowseComp	78.4%*	65.8%	37.0%

*С использованием Agent Swarm

Что это значит для индустрии

Moonshot AI демонстрирует, что китайские лаборатории способны создавать модели мирового уровня и открыто делиться ими с сообществом. Kimi K2.5 доступна на HuggingFace под лицензией, позволяющей коммерческое использование.

Планы на K3 с улучшенной архитектурой внимания, более быстрым обучением и сниженными затратами на инференс показывают, что команда не собирается останавливаться. Учитывая темп развития — K2 вышла всего несколькими месяцами ранее — следующую версию можно ожидать уже в первой половине 2026 года.

Для разработчиков, ищущих open-source альтернативу закрытым моделям, K2.5 представляет серьёзный вариант — особенно для agentic-задач, где технология Agent Swarm даёт ей преимущество над конкурентами.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Что стоит за Kimi K2.5: команда Moonshot AI о будущем модели

Архитектура K2.5: триллион параметров под капотом

KDA hybrids: секрет следующего поколения

Agent Swarm: до 100 агентов параллельно

«Креативный почерк» — не баг, а фича

Контекст в 1 миллион токенов: пока слишком дорого

Самый сложный вызов: чередование мышления и инструментов

Бенчмарки: где K2.5 лидирует

Что это значит для индустрии

Похожие новости

Cursor тихо построил свою модель на китайском open source — и попался

Разрыв закрылся: открытые модели догоняют OpenAI и Anthropic

Kimi K2.6 неделю спустя: open-source проголосовал кошельком