Opus = 5 триллионов параметров? Маск раскрыл размеры моделей
Илон Маск в X назвал размеры Claude Opus и Sonnet. xAI тренирует модель на 10 триллионов параметров — в 20 раз больше Grok 4.20.

9 апреля Илон Маск ответил на вопрос в X и непринуждённо раскрыл то, что AI-компании обычно охраняют как государственную тайну: количество параметров в моделях конкурентов.
Что сказал Маск
«0.5T total. Current Grok is half the size of Sonnet and 1/10th the size of Opus. Very strong model for its size.»
Из этого твита следует простая арифметика: если Grok 4.20 = 500 миллиардов параметров (0.5T), то Claude Sonnet = 1 триллион, а Claude Opus = 5 триллионов параметров. Маск отвечал на вопрос о том, является ли Grok 4.20 моделью типа MoE с активной частью 500B или это полный размер. Ответ — 0.5T total, то есть плотная модель.
Anthropic никогда не раскрывала количество параметров своих моделей. Теперь эта информация — пусть и из уст конкурента — стала достоянием общественности. Пост набрал 1700 лайков и 104 ответа.
Что тренирует xAI
Но самое интересное — не размер Grok, а то, что стоит за ним. Маск раскрыл линейку моделей xAI, находящихся в обучении:
- Grok Imagine V2 (генерация изображений)
- 2 варианта моделей на 1 триллион параметров
- 2 варианта на 1.5 триллиона
- 1 модель на 6 триллионов параметров
- 1 модель на 10 триллионов параметров
Крупнейшая модель xAI в 20 раз больше текущего Grok 4.20. Для контекста: если Claude Opus действительно 5T, то 10-триллионная модель xAI будет вдвое больше. Это масштаб, который ещё год назад казался непрактичным.
Что стоит за этими числами
Количество параметров — далеко не единственный показатель качества модели. Grok 4.20 с 500 миллиардами уступает Opus с 5 триллионами на большинстве бенчмарков, но Маск не случайно подчеркнул «very strong model for its size». В пересчёте на параметр Grok действительно эффективен.
Anthropic добилась лидерства другими методами: архитектурными решениями, данными для обучения, техниками alignment. Размер модели — необходимое, но недостаточное условие. DeepSeek V4 с триллионом параметров в MoE-архитектуре конкурирует с моделями, которые формально крупнее.
Отдельный вопрос — стоимость инференса. 5 триллионов параметров Opus объясняют, почему это самая дорогая модель на рынке ($15 за миллион входных токенов). И почему Anthropic инвестирует в компрессию и Mixture-of-Experts для будущих версий.
Что дальше
Гонка размеров входит в новую фазу. Если xAI действительно тренирует 10-триллионную модель на мощностях Colossus 2, это потребует беспрецедентного количества GPU. Маск строит дата-центр на 2 гигаватта в Мемфисе — возможно, именно под эти модели.
Впрочем, Claude Mythos, по оценке NextBigFuture, может иметь около 10 триллионов параметров. Если это так, гонка за масштабом только начинается — и мы наблюдаем лишь её публичную часть.
