Маск проговорился: у Claude Opus ~5 триллионов параметров
Илон Маск раскрыл размеры моделей конкурентов: Opus якобы содержит 5T параметров, а Grok 4.2 — в 10 раз меньше. Сообщество обсуждает масштабы.
Илон Маск в одном из постов на X обронил цифру, которую Anthropic никогда официально не раскрывала: по его словам, Grok 4.2 имеет 0.5T (500 миллиардов) параметров, а Claude Opus — примерно в 10 раз больше. Нехитрая арифметика даёт ~5 триллионов параметров для флагманской модели Anthropic.
Что произошло
Маск, по-видимому, сравнивал размеры моделей в контексте обсуждения производительности Grok и конкурентов. Сообщество на Reddit быстро подхватило цифры: «5 триллионов параметров — это объясняет, почему мой счёт за API выглядит как ипотека», — написал один из пользователей r/LocalLLaMA.
Anthropic никогда не публиковала количество параметров для Claude Opus 4.6, указывая в документации лишь «dense transformer». Маск, впрочем, тоже не уточнил, говорит ли он о полном числе параметров или об активных (в случае MoE-архитектуры разница колоссальна).
Для контекста: Grok 5, который xAI готовит к выпуску, по слухам, будет содержать 6 триллионов параметров при MoE-архитектуре, обученных на кластере Colossus 2 мощностью 2 гигаватта с 550 000 GPU. При MoE активируется лишь часть параметров на запрос, что делает прямое сравнение «по количеству параметров» довольно бессмысленным.
Почему это важно
Если Opus действительно dense-модель на 5T параметров, это объясняет и высокую стоимость API, и впечатляющее качество рассуждений. Dense-архитектура активирует все параметры на каждый токен, что требует колоссальных вычислительных ресурсов, но обеспечивает более глубокое «понимание».
Впрочем, относиться к словам Маска стоит с осторожностью. Он регулярно раскрывает информацию о конкурентах без подтверждения, а мотивация очевидна: показать, что Grok делает больше с меньшими ресурсами. В индустрии, где размер модели давно не равен качеству, цифры без архитектурного контекста — скорее маркетинг, чем наука.